用于从正态分布数据集中检测和删除异常值的工具库
项目描述
使用Smirnov-Grubbs测试从正态分布数据集中检测和删除异常值的工具库。
需求
概述
支持测试的两端和单端版本。前者允许从数据集的两端提取异常值,而后者仅考虑最小/最大异常值。在运行测试时,每个异常值都会被删除,直到数据集中找不到为止。测试的输出足够灵活,可以匹配多个用例。默认情况下,将返回无异常值的数据,但测试也可以返回异常值本身或它们在原始数据集中的索引。
示例
带有Pandas系列输入的两端Grubbs测试
>>> from outliers import smirnov_grubbs as grubbs >>> import pandas as pd >>> data = pd.Series([1, 8, 9, 10, 9]) >>> grubbs.test(data, alpha=0.05) 1 8 2 9 3 10 4 9 dtype: int64
带有NumPy数组输入的两端Grubbs测试
>>> import numpy as np >>> data = np.array([1, 8, 9, 10, 9]) >>> grubbs.test(data, alpha=0.05) array([ 8, 9, 10, 9])
单端(最小)测试返回异常值索引
>>> grubbs.min_test_indices([8, 9, 10, 1, 9], alpha=0.05) [3]
单端(最大)测试返回异常值
>>> grubbs.max_test_outliers([8, 9, 10, 1, 9], alpha=0.05) [] >>> grubbs.max_test_outliers([8, 9, 10, 50, 9], alpha=0.05) [50]
许可证
本软件根据MIT许可证授权。
项目详情
关闭
outlier_utils-0.0.5.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 16e46fa6f7b01fe5518ea73fc15d3de0e30091750c428760bbe7dde2c9590579 |
|
MD5 | 7018000d4a64e8ea0b96a0a0d45e130b |
|
BLAKE2b-256 | 293a73493f0d4ee662798b27b0287d4372d99d3339ba5c3801caa14d5bf4d26d |
关闭
outlier_utils-0.0.5-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2e16148a3fa7b2e16ad0a3b75d8c8920828b5cc11568795782d597d4cfb0b194 |
|
MD5 | fc28198aec5a8d9fd722bbd896e3c725 |
|
BLAKE2b-256 | 5702281e0d898e50138b4275d8f2840d5b6bd41b276cb697dd56fd56ac91262c |