跳转到主要内容

Remedian:大型数据集的鲁棒平均法

项目描述

Build Status codecov Documentation Status PyPI version

remedian

Remedian:大型数据集的鲁棒平均法 - Python实现

此算法用于近似多个数据块的中位数,如果这些数据块不能(或不应)一次性加载到内存中。

给定大小为obs_size的数据块,以及总共t个数据块,Remedian类设置了一系列长度为n_obs的数组。

然后根据以下方式近似大小为obs_sizet个数据块的中位数:逐个将数据块喂入第一个数组的n_obs个位置。当第一个数组满时,计算并存储其中位数在第二个数组的第一个位置。之后,第一个数组再次用于填充第二个数组的第二个位置,等等。当第二个数组满时,将其值的均值存储在第三个数组的第一个位置,依此类推。

最终的“Remedian”是所有t个数据块喂入对象后最后一个数组的均值。

安装

pip install remedian

依赖项应该由pip自动安装。

安装最新版本

  1. 激活Python环境
  2. git clone https://www.github.com/sappelhoff/remedian
  3. cd remedian
  4. pip install -e .
  5. 然后您应该能够使用 from remedian.remedian import Remedian

用法

请参阅文档中的示例

参考文献

P.J. Rousseeuw, G.W. Bassett Jr., "The remedian: A robust averaging method for large data sets", Journal of the American Statistical Association, vol. 85 (1990), pp. 97-104

M. Chao, G. Lin, "The asymptotic distributions of the remedians", Journal of Statistical Planning and Inference, vol. 37 (1993), pp. 1-11

Domenico Cantone, Micha Hofri, "Further analysis of the remedian algorithm", Theoretical Computer Science, vol. 495 (2013), pp. 1-16

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

remedian-0.1.2.tar.gz (5.3 kB 查看哈希值)

上传时间 源代码

构建分发

remedian-0.1.2-py2.py3-none-any.whl (6.0 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者