Intake parquet插件
项目描述
# Intake-parquet
[](https://travis-ci.org/ContinuumIO/intake-parquet) [](http://intake-parquet.readthedocs.io/en/latest/)?badge=latest)
[Intake数据加载器](https://github.com/ContinuumIO/intake/) 对Parquet二进制表格数据格式的接口。
Parquet在大数据生态系统中非常流行,因为它提供了列和分块对数据的访问,具有高效的编码和压缩。这使得该格式特别适用于通过大型子集甚至更大的数据集进行流式传输,因此它通常与Hadoop和Spark一起使用。
Parquet数据可以是单个文件、文件的目录或嵌套目录,其中目录名称在数据的分区中具有意义。
### 特性
Parquet插件允许
高效地解析元数据,因此您可以在不加载任何数据的情况下知道数据类型和记录数
随机访问分区
列和索引选择,仅加载所需的数据
传递基于值的过滤器,仅加载包含一些有效数据的分区(注意:不会过滤分区内的值)
### 安装
conda安装指令如下
` conda install -c conda-forge intake-parquet `
### 示例
请参阅examples/目录中的笔记本。