dl t是一个开源的以Python为先的数据加载库,无需任何后端即可运行。
项目描述
data load tool (dlt) — 开源Python数据加载库
无论是Google Colab笔记本、AWS Lambda函数、Airflow DAG,还是您的本地笔记本电脑,
或者GPT-4辅助开发游乐场,dlt都可以在任何地方使用。
🚀 加入我们充满活力的开发者社区,共同创造未来!
安装
dl t支持Python 3.8+。
pip install dlt
更多选项:通过Conda或Pixi安装
快速入门
从chess.com API加载棋盘游戏数据并将其保存到DuckDB
import dlt
from dlt.sources.helpers import requests
# Create a dlt pipeline that will load
# chess player data to the DuckDB destination
pipeline = dlt.pipeline(
pipeline_name='chess_pipeline',
destination='duckdb',
dataset_name='player_data'
)
# Grab some player data from Chess.com API
data = []
for player in ['magnuscarlsen', 'rpragchess']:
response = requests.get(f'https://api.chess.com/pub/player/{player}')
response.raise_for_status()
data.append(response.json())
# Extract, normalize, and load the data
pipeline.run(data, table_name='player')
在我们的Colab演示中尝试一下
功能
- 自动模式:对目标数据结构进行检查和模式创建。
- 数据归一化:在加载前的一致和验证数据。
- 无缝集成:Colab、AWS Lambda、Airflow和本地环境。
- 可扩展:适应生产中不断增长的数据需求。
- 易于维护:清晰的更新数据管道结构。
- 快速探索:快速探索并从新的数据源中获得见解。
- 多用途:适合从临时探索到高级加载基础设施。
- 使用CLI秒内启动:用于管理、部署和检查本地管道的强大CLI。
- 增量加载:仅加载新或更改的数据,避免再次加载旧记录。
- 开源:免费和Apache 2.0许可。
即可使用的数据源和目的地
在验证源文档中探索即可使用的数据源(例如Google Sheets),并在目的地文档中查看支持的目的地(例如DuckDB)。
文档
有关详细使用和配置信息,请参阅官方文档。
示例
您可以在示例文件夹中找到各种用例的示例。
作为依赖项添加
dlt
遵循MAJOR.MINOR.PATCH
语义版本模式。
major
表示破坏性更改和已删除的弃用功能minor
新功能,有时是自动迁移patch
错误修复
我们建议您仅自动允许patch
级别的更新
- 使用兼容版本指定符。例如,dlt~=1.0允许版本>=1.0且小于<1.1
- Poetry caret requirements。例如,^1.0允许版本在
>=1.0到 <1.0
参与其中
dlt项目正在快速发展,我们非常高兴欢迎您加入我们的社区!以下是您如何参与的方式
- 与社区联系:加入我们Slack上的其他dlt用户和贡献者
- 报告问题和建议功能:请使用GitHub问题报告错误或建议新功能。在创建新问题之前,请确保在跟踪器中搜索可能的重复项,并在找到时添加注释。
- 跟踪我们的工作和计划:请查看我们的公共GitHub项目
- 贡献验证源:将您的自定义源贡献给dlt-hub/verified-sources以帮助其他人在处理他们的数据任务。
- 贡献代码:查看我们的贡献指南以获取有关如何提交拉取请求的信息。
- 改进文档:帮助我们提高dlt文档。
许可证
dlt
在Apache 2.0许可下发布。
项目详细信息
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
dlt-1.1.0.tar.gz (634.6 kB 查看哈希值)
构建分发
dlt-1.1.0-py3-none-any.whl (807.1 kB 查看哈希值)
关闭
dlt-1.1.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 358d7ec7f54ac534c174109f5af918ad69de418eae25dd41de47b481f5ac5c1a |
|
MD5 | b3941adf00a4519e5f0dc10a1b80a8a8 |
|
BLAKE2b-256 | 45777f6645f8b8919303170236dc1c195718b361ed4aa8414bebdf247508506f |
关闭
dlt-1.1.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4bebe51f2c288dce6159a57c7ef2d915251ed4c4c517a845dda442f3f2e2ed16 |
|
MD5 | 186d9da49454839dd8c105871cf7386a |
|
BLAKE2b-256 | 42d26046d9553195e6b396fa15c77e57d1c3f971d16bbe402b0e26c49dbc0dae |