DSBox数据清洗和特征提取的数据处理原语
项目描述
ISI原语
ISI DSBox清洗原语
包含DSBox清洗相关原语的git仓库位于此处。与DSBox特征提取相关的原语git仓库位于此处。
数据清洗原语
d3m.primitives.dsbox.CleaningFeaturizer
这是一个多功能清洗特征提取原语。此原语需要从ISI的配置原语中获取元数据注释,请参阅下文的d3m.primitives.dsbox.Profiler
。支持的清洗特征提取操作包括
- 将日期列拆分为多个列,例如年、月、日、日
- 将美国电话号码拆分为多个列。
- 将具有一致字母数字值模式的列拆分为多个列,例如 '2days'。
- 将具有一致标点符号值模式的列拆分为多个列,例如 'NY_US'。
d3m.primitives.dsbox.FoldColumns
根据公共列名前缀将多个列折叠到一个列中。例如,将名为 'month-jan'、'month-feb'、'month-mar' 等的列折叠到一个名为 'month' 的列中。
编码原语
d3m.primitives.dsbox.Encoder
对分类属性执行独热编码。此编码器可以处理缺失值,并允许用户指定每个分类属性生成的列数的上限,n_limit
。
d3m.primitives.dsbox.UnaryEncoder
执行一元编码,这对有序数据很有用。
插补原语
d3m.primitives.dsbox.MeanImputation
对数值列执行平均缺失值插补,对分类列执行众数插补。
d3m.primitives.dsbox.GreedyImputation
通过在简单的插补方法(即平均值、最小值、最大值和零)上执行贪婪搜索来进行缺失值插补。
d3m.primitives.dsbox.IterativeRegressionImputation
通过回归进行缺失值插补,然后通过迭代具有缺失值的列来改进插补。
配置原语
d3m.primitives.dsbox.Profiler
该原语通过检查给定数据生成元数据。元数据的类型包括
- 列包含可解析为美国电话号码的值
- 列包含可由标点符号解析的值
- 列包含可解析为数值标记和字母标记的值
- 列值标记化特征(最常见标记、不同标记数量、不同标记比例等)
- 列值特征(最常见值、不同值数量、不同值比例等)
- 列包含类似文件名的值
- 列包含缺失值(缺失值数量、缺失值比例)
- 异常值数量
- 列之间的相关性(皮尔逊、斯皮尔曼)
数据集市原语
d3m.primitives.dsbox.QueryDataframe
查询数据集市以获取可用的数据集。JSON查询规范定义在 Datamart Query API。原语返回数据集元数据列表。
d3m.primitives.dsbox.Join
将两个数据框合并为一个数据框。该原语接受两个数据框,left_dataframe和right_dataframe,以及两个指定连接列的列表,left_columns和right_columns。
ISI DSBox 特征化原语
与特征化相关的 DSBox 原语的 Git 仓库位于 此处。包含 DSBox 清洗相关原语的 Git 仓库位于 此处。
图像特征化原语
d3m.primitives.dsbox.ResNet50ImageFeature
使用预训练的 ResNet50 深度神经网络生成特征。使用超参数 layer_index
来选择用于特征化的网络层。
d3m.primitives.dsbox.Vgg16ImageFeature
使用预训练的 VGG16 深度神经网络生成特征。使用超参数 layer_index
来选择用于特征化的网络层。
d3m.primitives.dsbox.DataFrameToTensor
读取图像文件并生成一个张量,该张量适合作为 d3m.primitives.dsbox.ResNet50ImageFeature
和 d3m.primitives.dsbox.Vgg16ImageFeature
的输入。
时间序列特征化原语
d3m.primitives.dsbox.RNNTimeSeries
使用递归神经网络对单个时间序列进行预测。
d3m.primitives.dsbox.AutoArima
使用 AutoArima 对单个时间序列进行预测。
d3m.primitives.dsbox.GroupUpByTimeSeries
使用 Group Up 对单个时间序列进行预测。
d3m.primitives.dsbox.RandomProjectionTimeSeriesFeaturization
通过将时间序列矩阵随机投影到低维空间来生成多个时间序列的特征。
d3m.primitives.dsbox.TimeseriesToList
读取时间序列 csv 文件并生成输出列表,该列表适合作为 d3m.primitives.dsbox.RandomProjectionTimeSeriesFeaturization
的输入。
多表连接原语
d3m.primitives.dsbox.MultiTableFeaturization
自动检测多个表之间的外键关系,并使用聚合将表连接为一个表。
杂项
d3m.primitives.dsbox.DoNothing
这是一个恒等函数原语,它返回输入的数据框作为输出。这对于在不修改管道结构的情况下绕过管道步骤非常有用。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
构建分布
dsbox-primitives-1.6.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b47bbd38ae37ee44175d93108a8f18c5d9ec6c7d489650ea0ceb37d6c2cbe8f5 |
|
MD5 | f7e22d06398c42241c3fe45cc48573b4 |
|
BLAKE2b-256 | 2c926443201d60398923a251facf19bc825cc2b9b6d9b02061543edd11df77bb |
dsbox_primitives-1.6.2-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b50db702f1cfe1d954ff7049c25ec45d676bda675802528ec7b04e77b4960909 |
|
MD5 | 8944d3507696e9fc562f3fe150ac23f4 |
|
BLAKE2b-256 | 6cfed0c112b47b925fe4e1c878db82b555d1335538672bfa285e93c969b2ecf3 |