跳转到主要内容

Parquet文件格式支持

项目描述

https://github.com/dask/fastparquet/actions/workflows/main.yaml/badge.svg https://readthedocs.org/projects/fastparquet/badge/?version=latest

fastparquet是parquet格式的Python实现,旨在集成到基于Python的大数据工作流程中。它被Dask、Pandas和intake-parquet等项目隐式使用。

我们提供了对parquet格式功能的高度支持,以及非常具有竞争力的性能,同时保持小巧的安装大小和代码库。

有关此项目的详细信息、使用方法和与其他工作的比较,请参阅文档

需求

(所有开发都是针对默认anaconda通道和/或conda-forge中的最新版本)

必需

  • numpy

  • pandas

  • cython >= 0.29.23(如果从pyx文件构建)

  • cramjam

  • fsspec

支持的压缩算法

  • 默认可用

    • gzip

    • snappy

    • brotli

    • lz4

    • zstandard

  • 可选支持

安装

使用conda安装,以获取最新编译版本

conda install -c conda-forge fastparquet

或从PyPI安装

pip install fastparquet

您可能希望首先安装numpy,以帮助pip的解析器。这可能将安装合适的wheel,或者从源代码编译。对于后者,您需要在系统上安装合适的C编译器工具链。

您还可以从github安装最新版本

pip install git+https://github.com/dask/fastparquet

在这种情况下,您还应该有 cython,以便能够重新构建C文件。

用法

请参阅文档

读取

from fastparquet import ParquetFile
pf = ParquetFile('myfile.parq')
df = pf.to_pandas()
df2 = pf.to_pandas(['col1', 'col2'], categories=['col1'])

您可以指定要加载哪些列,哪些列要保留为分类(如果数据使用字典编码)。文件路径可以是单个文件,指向其他数据文件的元数据文件,或包含数据文件的目录(树)。后者通常是hive/spark的输出。

写入

from fastparquet import write
write('outfile.parq', df)
write('outfile2.parq', df, row_group_offsets=[0, 10000, 20000],
      compression='GZIP', file_scheme='hive')

默认情况下,将生成单个输出文件,其中包含单个行组(即逻辑段)且无压缩。目前,仅支持简单数据类型和平编码,因此性能应类似于numpy.savez

历史

该项目于2016年10月从parquet-python分支,后者未设计用于向量化加载大数据或并行访问。

项目详情


下载文件

下载适合您平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分布

fastparquet-2024.5.0.tar.gz (466.9 kB 查看哈希值)

上传时间

构建分布

fastparquet-2024.5.0-cp312-cp312-win_amd64.whl (673.0 kB 查看哈希值)

上传时间 CPython 3.12 Windows x86-64

fastparquet-2024.5.0-cp312-cp312-musllinux_1_2_x86_64.whl (1.9 MB 查看哈希值)

上传于 CPython 3.12 musllinux: musl 1.2+ x86-64

fastparquet-2024.5.0-cp312-cp312-musllinux_1_2_i686.whl (1.8 MB 查看哈希值)

上传于 CPython 3.12 musllinux: musl 1.2+ i686

fastparquet-2024.5.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.8 MB 查看哈希值)

上传于 CPython 3.12 manylinux: glibc 2.17+ x86-64

fastparquet-2024.5.0-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (1.8 MB 查看哈希值)

上传于 CPython 3.12 manylinux: glibc 2.17+ ARM64

fastparquet-2024.5.0-cp312-cp312-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (1.7 MB 查看哈希值)

上传于 CPython 3.12 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

fastparquet-2024.5.0-cp312-cp312-macosx_11_0_arm64.whl (685.1 kB 查看哈希值)

上传于 CPython 3.12 macOS 11.0+ ARM64

fastparquet-2024.5.0-cp312-cp312-macosx_10_9_universal2.whl (915.3 kB 查看哈希值)

上传于 CPython 3.12 macOS 10.9+ universal2 (ARM64, x86-64)

fastparquet-2024.5.0-cp311-cp311-win_amd64.whl (672.0 kB 查看哈希值)

上传于 CPython 3.11 Windows x86-64

fastparquet-2024.5.0-cp311-cp311-musllinux_1_2_x86_64.whl (1.9 MB 查看哈希值)

上传于 CPython 3.11 musllinux: musl 1.2+ x86-64

fastparquet-2024.5.0-cp311-cp311-musllinux_1_2_i686.whl (1.8 MB 查看哈希值)

上传于 CPython 3.11 musllinux: musl 1.2+ i686

fastparquet-2024.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.8 MB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ x86-64

fastparquet-2024.5.0-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (1.8 MB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ ARM64

fastparquet-2024.5.0-cp311-cp311-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (1.8 MB 查看哈希值)

上传于 CPython 3.11 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

fastparquet-2024.5.0-cp311-cp311-macosx_11_0_arm64.whl (683.5 kB 查看哈希值)

上传于 CPython 3.11 macOS 11.0+ ARM64

fastparquet-2024.5.0-cp311-cp311-macosx_10_9_universal2.whl (910.1 kB 查看哈希值)

上传于 CPython 3.11 macOS 10.9+ universal2 (ARM64, x86-64)

fastparquet-2024.5.0-cp310-cp310-win_amd64.whl (672.1 kB 查看哈希值)

上传于 CPython 3.10 Windows x86-64

fastparquet-2024.5.0-cp310-cp310-musllinux_1_2_x86_64.whl (1.8 MB 查看哈希值)

上传于 CPython 3.10 musllinux: musl 1.2+ x86-64

fastparquet-2024.5.0-cp310-cp310-musllinux_1_2_i686.whl (1.7 MB 查看哈希值)

上传于 CPython 3.10 musllinux: musl 1.2+ i686

fastparquet-2024.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ x86-64

fastparquet-2024.5.0-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (1.7 MB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ ARM64

fastparquet-2024.5.0-cp310-cp310-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (1.7 MB 查看哈希值)

上传时间: CPython 3.10 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

fastparquet-2024.5.0-cp310-cp310-macosx_11_0_arm64.whl (683.8 kB 查看哈希值)

上传时间: CPython 3.10 macOS 11.0+ ARM64

fastparquet-2024.5.0-cp310-cp310-macosx_10_9_universal2.whl (910.5 kB 查看哈希值)

上传时间: CPython 3.10 macOS 10.9+ universal2 (ARM64, x86-64)

fastparquet-2024.5.0-cp39-cp39-win_amd64.whl (672.6 kB 查看哈希值)

上传时间: CPython 3.9 Windows x86-64

fastparquet-2024.5.0-cp39-cp39-musllinux_1_2_x86_64.whl (1.8 MB 查看哈希值)

上传时间: CPython 3.9 musllinux: musl 1.2+ x86-64

fastparquet-2024.5.0-cp39-cp39-musllinux_1_2_i686.whl (1.7 MB 查看哈希值)

上传时间: CPython 3.9 musllinux: musl 1.2+ i686

fastparquet-2024.5.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.7 MB 查看哈希值)

上传时间: CPython 3.9 manylinux: glibc 2.17+ x86-64

fastparquet-2024.5.0-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (1.7 MB 查看哈希值)

上传时间: CPython 3.9 manylinux: glibc 2.17+ ARM64

fastparquet-2024.5.0-cp39-cp39-manylinux_2_5_i686.manylinux1_i686.manylinux_2_17_i686.manylinux2014_i686.whl (1.7 MB 查看哈希值)

上传时间: CPython 3.9 manylinux: glibc 2.17+ i686 manylinux: glibc 2.5+ i686

fastparquet-2024.5.0-cp39-cp39-macosx_11_0_arm64.whl (684.3 kB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

fastparquet-2024.5.0-cp39-cp39-macosx_10_9_universal2.whl (911.9 kB 查看哈希值)

上传于 CPython 3.9 macOS 10.9+ universal2 (ARM64, x86-64)

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面