离线数据框,用于可视化和大表格数据集的探索
项目描述
什么是Vaex?
Vaex是一个高性能的Python库,用于懒加载的离线数据框(类似于Pandas),用于可视化和探索大型表格数据集。它计算统计量,如均值、总和、计数、标准差等,在超过十亿(10^9
)个样本/行/秒的N维网格上。可视化使用直方图、密度图和3D体积渲染完成,允许交互式探索大数据。Vaex使用内存映射、零内存复制策略和懒加载计算来实现最佳性能(不浪费内存)。
安装
使用pip
$ pip install vaex
或conda
$ conda install -c conda-forge vaex
关键特性
即时打开大型数据文件(内存映射)
HDF5和Apache Arrow受支持。
阅读有关如何高效转换数据的文档,您的数据来自CSV文件、Pandas数据框或其他来源。
支持与内存映射结合的S3的懒加载流式传输。
表达式系统
不要在特征工程上浪费内存或时间,我们在需要时(懒加载)转换您的数据。
离线数据框
过滤和评估表达式不会通过复制来浪费内存;数据在磁盘上保持未更改,只有在需要时才会流式传输。推迟您需要集群的时间。
快速分组/聚合
Vaex实现了并行化的、高性能的groupby
操作,尤其是在使用类别(>1亿/秒)时。
快速且高效的连接
在连接时,Vaex不会复制/实例化“右侧”的表,从而节省了数GB的内存。在十亿行上进行亚秒级连接,它非常快!
更多特性
- 远程数据框(文档即将推出)
- 集成到Jupyter和Voila,用于交互式笔记本和仪表板
- 无需(显式)管道的机器学习
贡献
查看贡献页面。
Slack
加入我们的Slack频道进行讨论!
了解更多关于Vaex的信息
-
文章
-
观看我们的最新演讲
-
有关数据科学解决方案、培训或企业支持,请联系我们https://vaex.io/
项目详情
下载文件
下载您平台对应的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码发行版
vaex-4.17.0.tar.gz (4.8 kB 查看哈希值)
构建发行版
vaex-4.17.0-py3-none-any.whl (4.8 kB 查看哈希值)
关闭
vaex-4.17.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2303a5382f2048f50389bbd2f24c06147599cdc09e585b138c5b52e0369d5787 |
|
MD5 | e7a455319e4b8cc0cbfe2ab4f2039a42 |
|
BLAKE2b-256 | 853c49233556ef1401d2b9cec3e8b6bcb7f25f8fc5db1931b0090d1d749ecd5e |
关闭
vaex-4.17.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b48dafa590028b103d7a21dcf31d0ea511d83714899a97644eca96f3725bf7cc |
|
MD5 | 4b67c5b2c4e07573d27a6f6f072b5721 |
|
BLAKE2b-256 | 174de42547bc4d263bd15fb3c097f3f5510ec4752766d4ee32d80db58898f70b |