跳转到主要内容

估计文件行长分布。

项目描述

Qudth随机采样大文件中的行,并对每行进行统计。例如,在一个10GB的文本文件中,您可能想知道典型行的长度。

行长度

如果您对行长度感兴趣,那将非常方便,因为这是我们目前唯一实现的功能。

$ qudth qudth/cli.py -n 5 --bins 8

▁ ▁ ▂ ▁ ▁ ▁ ▃ ▃
01     52     59
Lengths of 5 lines in qudth/cli.py
(simple random sample with replacement)

基准测试

wc -l 与qudth的行长度估计等效,但qudth的采样使它在处理大文件时更快。 big-file.csv 文件大小为1GB。

_:~ t$ time qudth big-file.csv > /dev/null

real    0m0.287s
user    0m0.161s
sys     0m0.032s
_:~ t$ time wc -l big-file.csv > /dev/null

real    0m2.515s
user    0m1.475s
sys     0m0.440s

未来工作

更标准的东西可能是一种将随机样本输出到stdout的东西。它可以支持不同的采样策略。

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分布

qudth-0.0.3.tar.gz (2.7 kB 查看散列值)

上传时间:

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面