跳转到主要内容

未提供项目描述

项目描述

Kartothek

Build Status Documentation Status codecov.io License: MIT Anaconda-Server Badge Anaconda-Server Badge

Kartothek是一个Python库,用于管理(创建、读取、更新、删除)大量表格数据,存储在blob存储中。它将数据作为数据集存储,并将它们以pandas DataFrames的形式呈现给用户。数据集是一组具有相同模式、位于blob存储中的文件。Kartothek使用元数据定义来高效处理这些数据集。为了分布式访问和处理数据集,Kartothek提供了一个Dask接口。

在blob存储(S3、ABS、GCS等)中存储分布在多个文件中的数据,可以快速、经济高效且高度可扩展地构建数据基础设施。仅将数据存储在对象存储中的缺点是,存储本身提供很少或没有保证,仅限于单个文件的一致性。特别是,它们不能保证数据集的一致性。如果我们始终需要数据集的一致状态,我们需要跟踪数据集的状态。Kartothek让我们从手动做这件事中解放出来。

kartothek.io模块提供了在数据管道中创建和修改这些数据集的构建块。Kartothek处理I/O、跟踪数据集分区并透明地选择数据子集。

安装

最新发布版本的安装程序可在Python包索引和conda上获得。

# Install with pip
pip install kartothek
# Install with conda
conda install -c conda-forge kartothek

什么是(真正的)卡托克(Kartothek)?

卡托克(或更现代的:卡片盒/目录盒)是一种用于组织从信息源中提取的(高级)信息的工具。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

kartothek-5.3.0.tar.gz (989.4 kB 查看散列值)

上传时间

构建分布

kartothek-5.3.0-py3-none-any.whl (252.6 kB 查看散列值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面