跳转到主要内容

基于SqlAlchemy的ETL工具,用于构建健壮的ETL管道,高度关注数据质量

项目描述

PyPI version PyPI Build Status codecov Requirements Status Documentation Get on Slack

SqlTask

SqlTask是一个基于SqlAlchemy的可扩展ETL库,用于帮助构建健壮的ETL管道,高度关注数据质量。

SqlTask的主要功能

  • 创建文档良好的数据模型,支持迭代开发模式和数据转换逻辑。
  • 与转换逻辑紧密耦合的数据质量检查,自动创建可视化友好且可操作的数据质量表。
  • 在数据提取期间,尽可能使用SQL,尤其是在数据过滤和聚合方面。
  • 当SQL不足时,使用Python进行逐行数据转换,例如调用第三方库或存储前一行状态。
  • 鼓励使用现代版本控制工具和流程,特别是GIT。
  • 在支持的情况下进行高效的数据上传/插入。
  • 易于与现代ETL编排工具集成,特别是Apache Airflow

注意事项: SqlTask目前正处于快速发展阶段,API预计会频繁更改。

支持的数据库

SqlTask支持所有带有SqlAlchemy 方言的数据库,并对以下引擎提供专用支持

  • Google BigQuery
  • MS SQL Server (实验性)
  • Postgres
  • Sqlite
  • Snowflake

未列出的引擎将回退到使用常规插入。

安装说明

要安装SqlTask而不添加任何依赖项,只需运行

pip install sqltask

要自动拉取Snowflake所需的依赖项,请输入

pip install sqltask[snowflake]

有关更多信息,请参阅Read The Docs上的文档

项目详细信息


下载文件

下载适用于您平台文件的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

sqltask-0.6.4.3.tar.gz (23.0 kB 查看哈希值)

上传时间 源代码

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面