跳转到主要内容

离线数据框,用于可视化和大表格数据集的探索

项目描述

Supported Python Versions Documentation Slack

什么是Vaex?

Vaex是一个高性能的Python库,用于懒加载的离线数据框(类似于Pandas),用于可视化和探索大型表格数据集。它计算统计量,如均值、总和、计数、标准差等,在超过十亿10^9)个样本/行/秒的N维网格上。可视化使用直方图密度图3D体积渲染完成,允许交互式探索大数据。Vaex使用内存映射、零内存复制策略和懒加载计算来实现最佳性能(不浪费内存)。

安装

使用pip

$ pip install vaex

或conda

$ conda install -c conda-forge vaex

有关更多详细信息,请参阅文档

关键特性

即时打开大型数据文件(内存映射)

HDF5Apache Arrow受支持。

opening1a

opening1b

阅读有关如何高效转换数据的文档,您的数据来自CSV文件、Pandas数据框或其他来源。

支持与内存映射结合的S3的懒加载流式传输。

opening1c

表达式系统

不要在特征工程上浪费内存或时间,我们在需要时(懒加载)转换您的数据。

expression

离线数据框

过滤和评估表达式不会通过复制来浪费内存;数据在磁盘上保持未更改,只有在需要时才会流式传输。推迟您需要集群的时间。

occ-animated

快速分组/聚合

Vaex实现了并行化的、高性能的groupby操作,尤其是在使用类别(>1亿/秒)时。

groupby

快速且高效的连接

在连接时,Vaex不会复制/实例化“右侧”的表,从而节省了数GB的内存。在十亿行上进行亚秒级连接,它非常快!

join

更多特性

贡献

查看贡献页面。

Slack

加入我们的Slack频道进行讨论!

了解更多关于Vaex的信息

项目详情


发行历史 发行通知 | RSS源

下载文件

下载您平台对应的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码发行版

vaex-4.17.0.tar.gz (4.8 kB 查看哈希值)

上传时间 源代码

构建发行版

vaex-4.17.0-py3-none-any.whl (4.8 kB 查看哈希值)

上传时间 Python 3

由以下支持