基于SqlAlchemy的ETL工具,用于构建健壮的ETL管道,高度关注数据质量
项目描述
SqlTask
SqlTask是一个基于SqlAlchemy的可扩展ETL库,用于帮助构建健壮的ETL管道,高度关注数据质量。
SqlTask的主要功能
- 创建文档良好的数据模型,支持迭代开发模式和数据转换逻辑。
- 与转换逻辑紧密耦合的数据质量检查,自动创建可视化友好且可操作的数据质量表。
- 在数据提取期间,尽可能使用SQL,尤其是在数据过滤和聚合方面。
- 当SQL不足时,使用Python进行逐行数据转换,例如调用第三方库或存储前一行状态。
- 鼓励使用现代版本控制工具和流程,特别是GIT。
- 在支持的情况下进行高效的数据上传/插入。
- 易于与现代ETL编排工具集成,特别是Apache Airflow。
注意事项: SqlTask目前正处于快速发展阶段,API预计会频繁更改。
支持的数据库
SqlTask支持所有带有SqlAlchemy 方言的数据库,并对以下引擎提供专用支持
- Google BigQuery
- MS SQL Server (实验性)
- Postgres
- Sqlite
- Snowflake
未列出的引擎将回退到使用常规插入。
安装说明
要安装SqlTask而不添加任何依赖项,只需运行
pip install sqltask
要自动拉取Snowflake所需的依赖项,请输入
pip install sqltask[snowflake]
有关更多信息,请参阅Read The Docs上的文档。
项目详细信息
关闭
sqltask-0.6.4.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 79936d2955f21b0901df68282bc1699a87aaf5b6785d0627cb40375e002cb36b |
|
MD5 | 5e226a0ac923a99a207095678a6e3d3b |
|
BLAKE2b-256 | 0c4fe6583d3fa8f5ea528a4fdf5e6a839432f66e2f6395c76152238fb7261c18 |