跳转到主要内容

Intake parquet插件

项目描述

# Intake-parquet

[![构建状态](https://travis-ci.org/ContinuumIO/intake-parquet.svg?branch=master)](https://travis-ci.org/ContinuumIO/intake-parquet) [![文档状态](https://readthedocs.org/projects/intake-parquet/badge/?version=latest)](http://intake-parquet.readthedocs.io/en/latest/)?badge=latest)

[Intake数据加载器](https://github.com/ContinuumIO/intake/) 对Parquet二进制表格数据格式的接口。

Parquet在大数据生态系统中非常流行,因为它提供了列和分块对数据的访问,具有高效的编码和压缩。这使得该格式特别适用于通过大型子集甚至更大的数据集进行流式传输,因此它通常与Hadoop和Spark一起使用。

Parquet数据可以是单个文件、文件的目录或嵌套目录,其中目录名称在数据的分区中具有意义。

### 特性

Parquet插件允许

  • 高效地解析元数据,因此您可以在不加载任何数据的情况下知道数据类型和记录数

  • 随机访问分区

  • 列和索引选择,仅加载所需的数据

  • 传递基于值的过滤器,仅加载包含一些有效数据的分区(注意:不会过滤分区内的值)

### 安装

conda安装指令如下

` conda install -c conda-forge intake-parquet `

### 示例

请参阅examples/目录中的笔记本。

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

intake-parquet-0.3.0.tar.gz (57.8 kB 查看哈希值)

上传时间

构建分发

intake_parquet-0.3.0-py3-none-any.whl (5.4 kB 查看哈希值)

上传时间 Python 3