跳转到主要内容

机器学习数据集加载器

项目描述

用于测试和示例的机器学习数据集加载器

用于测试和示例脚本的多种机器学习数据集加载器。之前在 thinc.extra.datasets 中。

PyPi Version

设置和安装

可以通过pip安装此软件包

pip install ml-datasets

加载器

可以直接导入加载器或通过它们的字符串名称(如果它们通过命令行参数设置,这很有用)使用。某些加载器可能需要参数——请参阅源代码以获取详细信息。

# Import directly
from ml_datasets import imdb
train_data, dev_data = imdb()
# Load via registry
from ml_datasets import loaders
imdb_loader = loaders.get("imdb")
train_data, dev_data = imdb_loader()

可用的加载器

NLP数据集

ID / 函数 描述 NLP任务 从URL
imdb IMDB情感数据集 二分类:情感分析
dbpedia DBPedia本体数据集 多类别单标签分类
cmu CMU电影类型数据集 多类别多标签分类
quora_questions 重复Quora问题数据集 检测重复问题
reuters 路透社数据集(不包括文本) 多类别多标签分类
snli 斯坦福自然语言推断语料库 识别文本蕴涵
stack_exchange Stack Exchange数据集 问答
ud_ancora_pos_tags Universal Dependencies Spanish AnCora语料库 词性标注
ud_ewtb_pos_tags Universal Dependencies English EWT语料库 词性标注
wikiner WikiNER数据 命名实体识别

其他机器学习数据集

ID / 函数 描述 机器学习任务 从URL
mnist MNIST数据 图像识别

数据集详细信息

IMDB

每个实例包含电影评论的文本,以及用01表示的情感。

train_data, dev_data = ml_datasets.imdb()
for text, annot in train_data[0:5]:
    print(f"Review: {text}")
    print(f"Sentiment: {annot}")
属性 训练 开发
实例数量 25000 25000
标签值 {0, 1} {0, 1}
每个实例的标签数 单标签 单标签
标签分布 平衡(50/50) 平衡(50/50)

DBPedia

每个实例包含一个本体描述,以及将其分类到14个不同标签中的一个。

train_data, dev_data = ml_datasets.dbpedia()
for text, annot in train_data[0:5]:
    print(f"Text: {text}")
    print(f"Category: {annot}")
属性 训练 开发
实例数量 560000 70000
标签值 1-14 1-14
每个实例的标签数 单标签 单标签
标签分布 平衡 平衡

CMU

每个实例包含一个电影描述,以及将其分类到适当的电影类型列表中。

train_data, dev_data = ml_datasets.cmu()
for text, annot in train_data[0:5]:
    print(f"Text: {text}")
    print(f"Genres: {annot}")
属性 训练 开发
实例数量 41793 0
标签值 363个不同的类型 -
每个实例的标签数 多标签 -
标签分布 不平衡:有少于20个实例的147个标签,而戏剧标签出现超过19000次 -

Quora

train_data, dev_data = ml_datasets.quora_questions()
for questions, annot in train_data[0:50]:
    q1, q2 = questions
    print(f"Question 1: {q1}")
    print(f"Question 2: {q2}")
    print(f"Similarity: {annot}")

每个实例包含两个Quora问题,以及一个标签表示它们是否重复(0:不重复,1:重复)。真实标签包含一定量的噪声:不能保证它们是完美的。

属性 训练 开发
实例数量 363859 40429
标签值 {0, 1} {0, 1}
每个实例的标签数 单标签 单标签
标签分布 不平衡:63%的标签为0 不平衡:63%的标签为0

注册加载器

可以使用loaders注册表作为装饰器在外部注册加载器。例如

@ml_datasets.loaders("my_custom_loader")
def my_custom_loader():
    return load_some_data()

assert "my_custom_loader" in ml_datasets.loaders

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。

源分发

ml_datasets-0.2.0.tar.gz (13.0 kB 查看哈希值)

上传时间

构建分发

ml_datasets-0.2.0-py3-none-any.whl (15.9 kB 查看哈希值)

上传时间 Python 3

支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面