跳转到主要内容

dl t是一个开源的以Python为先的数据加载库,无需任何后端即可运行。

项目描述

data load tool (dlt) — 开源Python数据加载库

无论是Google Colab笔记本、AWS Lambda函数、Airflow DAG,还是您的本地笔记本电脑,
或者GPT-4辅助开发游乐场,dlt都可以在任何地方使用。

🚀 加入我们充满活力的开发者社区,共同创造未来!

安装

dl t支持Python 3.8+。

pip install dlt

更多选项:通过Conda或Pixi安装

快速入门

从chess.com API加载棋盘游戏数据并将其保存到DuckDB

import dlt
from dlt.sources.helpers import requests

# Create a dlt pipeline that will load
# chess player data to the DuckDB destination
pipeline = dlt.pipeline(
    pipeline_name='chess_pipeline',
    destination='duckdb',
    dataset_name='player_data'
)

# Grab some player data from Chess.com API
data = []
for player in ['magnuscarlsen', 'rpragchess']:
    response = requests.get(f'https://api.chess.com/pub/player/{player}')
    response.raise_for_status()
    data.append(response.json())

# Extract, normalize, and load the data
pipeline.run(data, table_name='player')

在我们的Colab演示中尝试一下

功能

  • 自动模式:对目标数据结构进行检查和模式创建。
  • 数据归一化:在加载前的一致和验证数据。
  • 无缝集成:Colab、AWS Lambda、Airflow和本地环境。
  • 可扩展:适应生产中不断增长的数据需求。
  • 易于维护:清晰的更新数据管道结构。
  • 快速探索:快速探索并从新的数据源中获得见解。
  • 多用途:适合从临时探索到高级加载基础设施。
  • 使用CLI秒内启动:用于管理、部署和检查本地管道的强大CLI。
  • 增量加载:仅加载新或更改的数据,避免再次加载旧记录。
  • 开源:免费和Apache 2.0许可。

即可使用的数据源和目的地

验证源文档中探索即可使用的数据源(例如Google Sheets),并在目的地文档中查看支持的目的地(例如DuckDB)。

文档

有关详细使用和配置信息,请参阅官方文档

示例

您可以在示例文件夹中找到各种用例的示例。

作为依赖项添加

dlt遵循MAJOR.MINOR.PATCH语义版本模式。

  • major表示破坏性更改和已删除的弃用功能
  • minor新功能,有时是自动迁移
  • patch错误修复

我们建议您仅自动允许patch级别的更新

参与其中

dlt项目正在快速发展,我们非常高兴欢迎您加入我们的社区!以下是您如何参与的方式

  • 与社区联系:加入我们Slack上的其他dlt用户和贡献者
  • 报告问题和建议功能:请使用GitHub问题报告错误或建议新功能。在创建新问题之前,请确保在跟踪器中搜索可能的重复项,并在找到时添加注释。
  • 跟踪我们的工作和计划:请查看我们的公共GitHub项目
  • 贡献验证源:将您的自定义源贡献给dlt-hub/verified-sources以帮助其他人在处理他们的数据任务。
  • 贡献代码:查看我们的贡献指南以获取有关如何提交拉取请求的信息。
  • 改进文档:帮助我们提高dlt文档。

许可证

dltApache 2.0许可下发布。

项目详细信息


发布历史 发布通知 | RSS源

下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

dlt-1.1.0.tar.gz (634.6 kB 查看哈希值)

上传时间 源代码

构建分发

dlt-1.1.0-py3-none-any.whl (807.1 kB 查看哈希值)

上传时间 Python 3

由以下支持