Kedro帮助您构建生产就绪的数据和数据分析管道
项目描述
什么是Kedro?
Kedro是一个用于生产就绪数据科学的工具箱。它使用软件开发最佳实践来帮助您创建可重复、可维护和模块化的数据工程和数据分析管道。您可以在kedro.org了解更多信息。
Kedro是一个由LF AI & Data Foundation托管的开源Python框架。
如何安装Kedro?
要从Python包索引(PyPI)安装Kedro,请运行
pip install kedro
也可以使用conda
来安装 Kedro。
conda install -c conda-forge kedro
我们的入门指南包含了完整的安装说明,以及如何设置 Python 虚拟环境。
源码安装
为了在官方发布之前访问最新的 Kedro 版本,请从main
分支安装。
pip install git+https://github.com/kedro-org/kedro@main
Kedro 的主要特性是什么?
特性 | 这是什么? |
---|---|
项目模板 | 这是一个基于Cookiecutter Data Science的标准、可修改且易于使用的项目模板。 |
数据目录 | 一系列轻量级数据连接器,用于在不同文件格式和文件系统(包括本地和网络文件系统、云对象存储和 HDFS)之间保存和加载数据。数据目录还包括基于文件的系统的数据和模型版本控制。 |
管道抽象 | 使用Kedro-Viz自动解析纯 Python 函数和数据管道的可视化之间的依赖关系。 |
编码规范 | 使用pytest 进行测试驱动开发,使用Sphinx生成良好文档的代码,使用ruff 创建并支持标准 Python 日志库的代码。 |
灵活部署 | 包括单机或分布式部署在内的部署策略,以及支持在 Argo、Prefect、Kubeflow、AWS Batch 和 Databricks 上部署的额外支持。 |
我如何使用 Kedro?
在Kedro 文档中,首先解释了如何安装 Kedro,然后介绍了Kedro 的关键概念。
然后您可以查看spaceflights 教程,以获得实际操作的体验。
对于新的和中级 Kedro 用户,有一个关于如何使用 Kedro-Viz可视化 Kedro 项目的全面部分。
使用 Kedro-Viz 生成的管道可视化
额外的文档解释了如何使用 Kedro 和 Jupyter notebooks一起工作,并有一套关于 Kedro 关键特性的高级用户指南。我们还推荐查看API 参考文档以获取更多信息。
Kedro 为什么存在?
Kedro 是在我们共同的最佳实践(和错误)的基础上构建的,旨在交付具有大量原始未经验证数据的现实世界 ML 应用程序。我们开发 Kedro 以实现以下目标
- 解决 Jupyter notebooks、一次性脚本和胶水代码的主要缺点,因为重点是创建可维护的数据科学代码
- 增强团队协作,因为不同团队成员对软件工程概念的接触程度不同
- 提高效率,因为模块化和关注点分离等应用概念激发了可重用分析代码的创建
有关 Kedro 如何解决您的用例的更多信息,请参阅Kedro 网站上的产品常见问题解答。
Kedro 背后的人
Kedro 产品团队和来自世界各地的许多开源贡献者维护 Kedro。
我可以贡献力量吗?
是的!我们欢迎所有类型的贡献。请查看我们关于如何为 Kedro 贡献的指南。
我可以在哪里了解更多?
围绕 Kedro 正在形成一个日益增长的社区。我们鼓励您在 Slack 上提问和回答技术问题,并将过去的讨论存档添加到书签中。
我们在Kedro文档中维护了一份技术常见问题解答列表,您可以在awesome-kedro
GitHub仓库找到使用Kedro的博客文章、视频和项目的日益增长列表。如果您使用Kedro创建了任何内容,我们非常乐意将其列入列表。只需提交一个PR来添加它即可!
我该如何引用Kedro?
如果您是学术界人士,Kedro也可以作为解决可重复研究问题的一种工具帮助您。通过我们的仓库上的“引用此仓库”按钮,从CITATION.cff文件生成引用。
Python版本支持策略
- 核心Kedro框架支持由CPython核心团队积极维护的所有Python版本。当一个Python版本达到生命周期的终点时,Kedro将停止支持该版本。这不会被视为一个破坏性更改。
- Kedro Datasets包遵循NEP 29 Python版本支持策略。这意味着通常在kedro之前放弃对Python版本的支持。这是因为在kedro-datasets中有很多遵循NEP 29的依赖项,而Kedro框架更为保守的版本支持策略使得管理这些依赖项变得困难。
项目详情
下载文件
下载您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码分发
构建分发
kedro-0.19.8.tar.gz的散列值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cca9f32260402a772f27ad04bd53c9f487bf226f0be523f4c9f057b4c83991c4 |
|
MD5 | c89c4dda642205dd58a14b6f4475ce2e |
|
BLAKE2b-256 | ab7125c9994d5cd914ea0eb735eb4cc5bfb53bb649f8b9ed62b55abd0e8cb4b8 |
kedro-0.19.8-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9081bee9adc8a132a96a503aa453147a4df3b52e9c0d6c5ab8e102ae1c72ec3e |
|
MD5 | b52275d1cb27adb2eb42639b85f3288f |
|
BLAKE2b-256 | faa9f88712f4356165dde9313d293f21e6d702c4ea7d5d37db12033e4bd0ec48 |