一些用于处理数据的小工具
项目描述
datools
介绍
datools
是一组基于Python的工具,用于在关系数据库中处理数据。虽然它包含一些用于平滑SQL粗糙边缘的实用工具,但其最重要的组件是 datools.diff
,这是一个算法,最好在博客文章和Jupyter Notebook中解释。
数据库支持
虽然 datools
为其操作生成SQL,但不同数据库有其细微差别。《code>datools 可能今天可以在您的数据库上运行,但为了给您一些确定性,即我们知道它已经成功在以下数据库上运行,我们在测试套件中对以下数据库运行所有测试
数据库 | 由测试套件评估 |
---|---|
SQLite | 自v0.1.2以来 |
DuckDB | 自v0.1.4以来 |
PostgreSQL | 自v0.1.5以来 |
Redshift, Snowflake | 您提供实例,我将使测试通过 |
历史
0.1.5 (2022-04-13)
- 支持PostgreSQL!测试套件现在针对PostgreSQL运行,并且
datools.explanations.diff
现在允许您询问存储在Postgres中的数据“为什么”。激动吧! datools.sqlalchemy_utils.grouping_sets_query
现在将为支持分组集的数据库(例如,Postgres、DuckDB)生成 GROUPING SETs 查询,或者为不支持分组集的数据库(例如,SQLite)生成等效的 UNION ALL 版本。更多详情请参阅文档中的示例。
0.1.4 (2022-02-27)
- 支持 Python 3.10。
- 更新测试套件,使其运行针对多个数据库的测试,特别是从仅 SQLite 扩展到 DuckDB 和 SQLite。
- 由于最后一条,确保代码在 SQLite 的基础上也能在 DuckDB 上运行。
- 首次尝试编写文档(https://datools.readthedocs.io/en/latest/)。
0.1.3 (2021-12-31)
- 引入 mypy 进行代码风格检查,并引入 CI 确保提交到
main
的代码有适当的类型。 - 创建了第一个在真实世界数据集上工作(作为 Jupyter notebook 运行的 DIFF 示例)。此示例在仅考虑 moteid/sensorids 时部分复制了 Scorpion 论文。
- 将
diff
的on_columns
参数分离为on_column_values
(用于生成相等谓词作为解释的列)和on_column_ranges
(用于在将范围分桶为 15 个等大小桶后生成范围谓词作为解释的列)。
0.1.2 (2021-11-07)
- DIFF 算法实现的第一版。
0.1.0 (2021-05-09)
- PyPI 上的第一个版本。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分发
datools-0.1.5.tar.gz (23.7 kB 查看散列)
构建分发
datools-0.1.5-py2.py3-none-any.whl (13.5 kB 查看散列)
关闭
datools-0.1.5.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 4659cb258cb59443b0ac123120c5e9a7fcc271010ad4f3cce066e464ac2b93bd |
|
MD5 | 2e5663fd3c5d107e9510603e129a3404 |
|
BLAKE2b-256 | 190d047532faa41899b02b622d64139412760d935f74ed5dc8081cd02d2cf2ea |
关闭
datools-0.1.5-py2.py3-none-any.whl 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 6c915ddd216225b2b0b5d1c5fcbc70ea02c84b25cfa7b82bb822b8125e5bd68e |
|
MD5 | 1ee38bfc17b629228c535bb0d46855c9 |
|
BLAKE2b-256 | e1789c0010d2202905536c7f38c1b515e473c34c2998e1d2fb66291e1f2f7fd5 |