估计文件行长分布。
项目描述
Qudth随机采样大文件中的行,并对每行进行统计。例如,在一个10GB的文本文件中,您可能想知道典型行的长度。
行长度
如果您对行长度感兴趣,那将非常方便,因为这是我们目前唯一实现的功能。
$ qudth qudth/cli.py -n 5 --bins 8 ▁ ▁ ▂ ▁ ▁ ▁ ▃ ▃ 01 52 59 Lengths of 5 lines in qudth/cli.py (simple random sample with replacement)
基准测试
wc -l 与qudth的行长度估计等效,但qudth的采样使它在处理大文件时更快。 big-file.csv 文件大小为1GB。
_:~ t$ time qudth big-file.csv > /dev/null real 0m0.287s user 0m0.161s sys 0m0.032s _:~ t$ time wc -l big-file.csv > /dev/null real 0m2.515s user 0m1.475s sys 0m0.440s
未来工作
更标准的东西可能是一种将随机样本输出到stdout的东西。它可以支持不同的采样策略。
项目详情
关闭
qudth-0.0.3.tar.gz的散列值
算法 | 散列摘要 | |
---|---|---|
SHA256 | 6dfc361ccd72775fa12e91a558b1815b54920622464b35454e44312444a4ff2d |
|
MD5 | 4f37cca1229a12091dcf6430545bc863 |
|
BLAKE2b-256 | 45ac4672947113652f4cec572697f40369594a175a13891f451e3ff6e4a39ba4 |