跳转到主要内容

Kedro-Datasets 是您可以找到所有 Kedro 数据连接器的位置。

项目描述

Kedro-Datasets

License Python Version PyPI Version Code Style: Black

欢迎使用 kedro_datasets,这是 Kedro 数据连接器的家园。在这里,您将找到由 QuantumBlack 和外部贡献者创建的驱动 Kedro DataCatalog 的 AbstractDataset 实现。

安装

kedro-datasets 是一个 Python 插件。要安装它

pip install kedro-datasets

在分组级别安装依赖项

数据集组织到组中,例如 pandassparkpickle。每个组都包含一系列数据集,例如 pandas.CSVDatasetpandas.ParquetDataset 等。您可以按如下方式安装整个组依赖项

pip install "kedro-datasets[<group>]"

这安装了 Kedro-Datasets 以及与数据集组相关的依赖项。例如,这可能是依赖于 pandas 中数据类型的流程。运行 pip install 'kedro-datasets[pandas]' 安装 Kedro-Datasets 以及 pandas 中数据集的依赖项。

在类型级别安装依赖项

为了将安装限制为特定数据集的依赖项

pip install "kedro-datasets[<group>-<dataset>]"

例如,您的流程可能需要 pandas.ExcelDataset,因此要安装其依赖项,请运行 pip install "kedro-datasets[pandas-exceldataset]"

From `kedro-datasets` version 3.0.0 onwards, the names of the optional dataset-level dependencies have been normalised to follow [PEP 685](https://peps.pythonlang.cn/pep-0685/). The '.' character has been replaced with a '-' character and the names are in lowercase. For example, if you had `kedro-datasets[pandas.ExcelDataset]` in your requirements file, it would have to be changed to `kedro-datasets[pandas-exceldataset]`.

支持哪些 AbstractDataset 实现?

我们支持一系列数据连接器,包括 CSV、Excel、Parquet、Feather、HDF5、JSON、Pickle、SQL 表、SQL 查询、Spark DataFrame 等。我们甚至允许支持与图像一起工作。

这些数据连接器支持 pandassparknetworkxmatplotlibyaml 等的 API。

数据目录 允许您在本地文件系统、网络文件系统、云对象存储和 Hadoop 上处理各种文件格式。

以下为完整的支持的数据连接器和 API 列表

我该如何创建自己的 AbstractDataset 实现?

请参阅我们关于如何创建自己的 AbstractDataset 实现的说明

我可以贡献代码吗?

是的!想帮助构建 Kedro-Datasets?请查看我们的贡献指南

您使用的是什么许可协议?

Kedro-Datasets 适用于Apache 2.0 许可协议

Python 版本支持策略

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。

源代码分发

kedro_datasets-4.1.0.tar.gz (100.0 kB 查看哈希值)

上传时间: 源代码

构建分发

kedro_datasets-4.1.0-py3-none-any.whl (174.2 kB 查看哈希值)

上传时间: Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面