跳转到主要内容

用于从正态分布数据集中检测和删除异常值的工具库

项目描述

使用Smirnov-Grubbs测试从正态分布数据集中检测和删除异常值的工具库。

需求

概述

支持测试的两端和单端版本。前者允许从数据集的两端提取异常值,而后者仅考虑最小/最大异常值。在运行测试时,每个异常值都会被删除,直到数据集中找不到为止。测试的输出足够灵活,可以匹配多个用例。默认情况下,将返回无异常值的数据,但测试也可以返回异常值本身或它们在原始数据集中的索引。

示例

  • 带有Pandas系列输入的两端Grubbs测试

>>> from outliers import smirnov_grubbs as grubbs
>>> import pandas as pd
>>> data = pd.Series([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
1     8
2     9
3    10
4     9
dtype: int64
  • 带有NumPy数组输入的两端Grubbs测试

>>> import numpy as np
>>> data = np.array([1, 8, 9, 10, 9])
>>> grubbs.test(data, alpha=0.05)
array([ 8,  9, 10,  9])
  • 单端(最小)测试返回异常值索引

>>> grubbs.min_test_indices([8, 9, 10, 1, 9], alpha=0.05)
[3]
  • 单端(最大)测试返回异常值

>>> grubbs.max_test_outliers([8, 9, 10, 1, 9], alpha=0.05)
[]
>>> grubbs.max_test_outliers([8, 9, 10, 50, 9], alpha=0.05)
[50]

许可证

本软件根据MIT许可证授权。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

outlier_utils-0.0.5.tar.gz (6.2 kB 查看哈希值)

上传时间 源代码

构建分发

outlier_utils-0.0.5-py3-none-any.whl (5.1 kB 查看哈希值)

上传时间 Python 3

支持者