Remedian:大型数据集的鲁棒平均法
项目描述
remedian
Remedian:大型数据集的鲁棒平均法 - Python实现
此算法用于近似多个数据块的中位数,如果这些数据块不能(或不应)一次性加载到内存中。
给定大小为obs_size
的数据块,以及总共t
个数据块,Remedian类设置了一系列长度为n_obs
的数组。
然后根据以下方式近似大小为obs_size
的t
个数据块的中位数:逐个将数据块喂入第一个数组的n_obs
个位置。当第一个数组满时,计算并存储其中位数在第二个数组的第一个位置。之后,第一个数组再次用于填充第二个数组的第二个位置,等等。当第二个数组满时,将其值的均值存储在第三个数组的第一个位置,依此类推。
最终的“Remedian”是所有t
个数据块喂入对象后最后一个数组的均值。
安装
pip install remedian
依赖项应该由pip自动安装。
安装最新版本
- 激活Python环境
git clone https://www.github.com/sappelhoff/remedian
cd remedian
pip install -e .
- 然后您应该能够使用
from remedian.remedian import Remedian
用法
请参阅文档中的示例。
参考文献
P.J. Rousseeuw, G.W. Bassett Jr., "The remedian: A robust averaging method for large data sets", Journal of the American Statistical Association, vol. 85 (1990), pp. 97-104
M. Chao, G. Lin, "The asymptotic distributions of the remedians", Journal of Statistical Planning and Inference, vol. 37 (1993), pp. 1-11
Domenico Cantone, Micha Hofri, "Further analysis of the remedian algorithm", Theoretical Computer Science, vol. 495 (2013), pp. 1-16
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码分发
构建分发
remedian-0.1.2.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | da143daf593f2b0cc8a92520af2a8627cd761ed23e467b5bfe32a1db22d61da7 |
|
MD5 | 6c7d3c039a98a1288094365bee869edf |
|
BLAKE2b-256 | 72fcc21c34e837e85d166e4f42e09fb582956649b66b1ac024e1c28b4418aeaf |
remedian-0.1.2-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 081ef1cfaebaf5c52144c3f2942fe933c569a4ae130fce97035a2e3c8f480e0c |
|
MD5 | f176ef6f83ed3a45a0a3cac1f7256d0a |
|
BLAKE2b-256 | 7f140c30fecae429b73dea8fb4e78c9c188872396f085c23d79ff159ecb9869e |