未提供项目描述
项目描述
Kartothek
Kartothek是一个Python库,用于管理(创建、读取、更新、删除)大量表格数据,存储在blob存储中。它将数据作为数据集存储,并将它们以pandas DataFrames的形式呈现给用户。数据集是一组具有相同模式、位于blob存储中的文件。Kartothek使用元数据定义来高效处理这些数据集。为了分布式访问和处理数据集,Kartothek提供了一个Dask接口。
在blob存储(S3、ABS、GCS等)中存储分布在多个文件中的数据,可以快速、经济高效且高度可扩展地构建数据基础设施。仅将数据存储在对象存储中的缺点是,存储本身提供很少或没有保证,仅限于单个文件的一致性。特别是,它们不能保证数据集的一致性。如果我们始终需要数据集的一致状态,我们需要跟踪数据集的状态。Kartothek让我们从手动做这件事中解放出来。
kartothek.io
模块提供了在数据管道中创建和修改这些数据集的构建块。Kartothek处理I/O、跟踪数据集分区并透明地选择数据子集。
安装
最新发布版本的安装程序可在Python包索引和conda上获得。
# Install with pip
pip install kartothek
# Install with conda
conda install -c conda-forge kartothek
什么是(真正的)卡托克(Kartothek)?
卡托克(或更现代的:卡片盒/目录盒)是一种用于组织从信息源中提取的(高级)信息的工具。
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
kartothek-5.3.0.tar.gz (989.4 kB 查看散列值)
构建分布
kartothek-5.3.0-py3-none-any.whl (252.6 kB 查看散列值)