跳转到主要内容

一些用于处理数据的小工具

项目描述

datools

Documentation status PyPi link Build status Apache 2.0 License

介绍

datools 是一组基于Python的工具,用于在关系数据库中处理数据。虽然它包含一些用于平滑SQL粗糙边缘的实用工具,但其最重要的组件是 datools.diff,这是一个算法,最好在博客文章Jupyter Notebook中解释。

要了解更多信息,请阅读文档联系

数据库支持

虽然 datools 为其操作生成SQL,但不同数据库有其细微差别。《code>datools 可能今天可以在您的数据库上运行,但为了给您一些确定性,即我们知道它已经成功在以下数据库上运行,我们在测试套件中对以下数据库运行所有测试

数据库 由测试套件评估
SQLite 自v0.1.2以来
DuckDB 自v0.1.4以来
PostgreSQL 自v0.1.5以来
Redshift, Snowflake 您提供实例,我将使测试通过

历史

0.1.5 (2022-04-13)

  • 支持PostgreSQL!测试套件现在针对PostgreSQL运行,并且 datools.explanations.diff 现在允许您询问存储在Postgres中的数据“为什么”。激动吧!
  • datools.sqlalchemy_utils.grouping_sets_query 现在将为支持分组集的数据库(例如,Postgres、DuckDB)生成 GROUPING SETs 查询,或者为不支持分组集的数据库(例如,SQLite)生成等效的 UNION ALL 版本。更多详情请参阅文档中的示例

0.1.4 (2022-02-27)

  • 支持 Python 3.10。
  • 更新测试套件,使其运行针对多个数据库的测试,特别是从仅 SQLite 扩展到 DuckDB 和 SQLite。
  • 由于最后一条,确保代码在 SQLite 的基础上也能在 DuckDB 上运行。
  • 首次尝试编写文档(https://datools.readthedocs.io/en/latest/)。

0.1.3 (2021-12-31)

  • 引入 mypy 进行代码风格检查,并引入 CI 确保提交到 main 的代码有适当的类型。
  • 创建了第一个在真实世界数据集上工作(作为 Jupyter notebook 运行的 DIFF 示例)。此示例在仅考虑 moteid/sensorids 时部分复制了 Scorpion 论文。
  • diffon_columns 参数分离为 on_column_values(用于生成相等谓词作为解释的列)和 on_column_ranges(用于在将范围分桶为 15 个等大小桶后生成范围谓词作为解释的列)。

0.1.2 (2021-11-07)

  • DIFF 算法实现的第一版。

0.1.0 (2021-05-09)

  • PyPI 上的第一个版本。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

datools-0.1.5.tar.gz (23.7 kB 查看散列)

上传时间

构建分发

datools-0.1.5-py2.py3-none-any.whl (13.5 kB 查看散列)

上传时间 Python 2 Python 3

由以下组织支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面