机器学习数据集加载器
项目描述
用于测试和示例的机器学习数据集加载器
用于测试和示例脚本的多种机器学习数据集加载器。之前在 thinc.extra.datasets
中。
设置和安装
可以通过pip安装此软件包
pip install ml-datasets
加载器
可以直接导入加载器或通过它们的字符串名称(如果它们通过命令行参数设置,这很有用)使用。某些加载器可能需要参数——请参阅源代码以获取详细信息。
# Import directly
from ml_datasets import imdb
train_data, dev_data = imdb()
# Load via registry
from ml_datasets import loaders
imdb_loader = loaders.get("imdb")
train_data, dev_data = imdb_loader()
可用的加载器
NLP数据集
ID / 函数 | 描述 | NLP任务 | 从URL |
---|---|---|---|
imdb |
IMDB情感数据集 | 二分类:情感分析 | ✓ |
dbpedia |
DBPedia本体数据集 | 多类别单标签分类 | ✓ |
cmu |
CMU电影类型数据集 | 多类别多标签分类 | ✓ |
quora_questions |
重复Quora问题数据集 | 检测重复问题 | ✓ |
reuters |
路透社数据集(不包括文本) | 多类别多标签分类 | ✓ |
snli |
斯坦福自然语言推断语料库 | 识别文本蕴涵 | ✓ |
stack_exchange |
Stack Exchange数据集 | 问答 | |
ud_ancora_pos_tags |
Universal Dependencies Spanish AnCora语料库 | 词性标注 | ✓ |
ud_ewtb_pos_tags |
Universal Dependencies English EWT语料库 | 词性标注 | ✓ |
wikiner |
WikiNER数据 | 命名实体识别 |
其他机器学习数据集
ID / 函数 | 描述 | 机器学习任务 | 从URL |
---|---|---|---|
mnist |
MNIST数据 | 图像识别 | ✓ |
数据集详细信息
IMDB
每个实例包含电影评论的文本,以及用0
或1
表示的情感。
train_data, dev_data = ml_datasets.imdb()
for text, annot in train_data[0:5]:
print(f"Review: {text}")
print(f"Sentiment: {annot}")
属性 | 训练 | 开发 |
---|---|---|
实例数量 | 25000 | 25000 |
标签值 | {0 , 1 } |
{0 , 1 } |
每个实例的标签数 | 单标签 | 单标签 |
标签分布 | 平衡(50/50) | 平衡(50/50) |
DBPedia
每个实例包含一个本体描述,以及将其分类到14个不同标签中的一个。
train_data, dev_data = ml_datasets.dbpedia()
for text, annot in train_data[0:5]:
print(f"Text: {text}")
print(f"Category: {annot}")
- 下载链接: 通过fast.ai
- 原始参考文献: Xiang Zhang等人,2015
属性 | 训练 | 开发 |
---|---|---|
实例数量 | 560000 | 70000 |
标签值 | 1 -14 |
1 -14 |
每个实例的标签数 | 单标签 | 单标签 |
标签分布 | 平衡 | 平衡 |
CMU
每个实例包含一个电影描述,以及将其分类到适当的电影类型列表中。
train_data, dev_data = ml_datasets.cmu()
for text, annot in train_data[0:5]:
print(f"Text: {text}")
print(f"Genres: {annot}")
- 下载链接: http://www.cs.cmu.edu/~ark/personas/
- 原始参考文献: David Bamman等人,2013
属性 | 训练 | 开发 |
---|---|---|
实例数量 | 41793 | 0 |
标签值 | 363个不同的类型 | - |
每个实例的标签数 | 多标签 | - |
标签分布 | 不平衡:有少于20个实例的147个标签,而戏剧 标签出现超过19000次 |
- |
Quora
train_data, dev_data = ml_datasets.quora_questions()
for questions, annot in train_data[0:50]:
q1, q2 = questions
print(f"Question 1: {q1}")
print(f"Question 2: {q2}")
print(f"Similarity: {annot}")
每个实例包含两个Quora问题,以及一个标签表示它们是否重复(0
:不重复,1
:重复)。真实标签包含一定量的噪声:不能保证它们是完美的。
属性 | 训练 | 开发 |
---|---|---|
实例数量 | 363859 | 40429 |
标签值 | {0 , 1 } |
{0 , 1 } |
每个实例的标签数 | 单标签 | 单标签 |
标签分布 | 不平衡:63%的标签为0 |
不平衡:63%的标签为0 |
注册加载器
可以使用loaders
注册表作为装饰器在外部注册加载器。例如
@ml_datasets.loaders("my_custom_loader")
def my_custom_loader():
return load_some_data()
assert "my_custom_loader" in ml_datasets.loaders
项目详情
下载文件
下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。
源分发
ml_datasets-0.2.0.tar.gz (13.0 kB 查看哈希值)
构建分发
ml_datasets-0.2.0-py3-none-any.whl (15.9 kB 查看哈希值)
关闭
ml_datasets-0.2.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3f9c8901f8d6be3dab5b23ec3a6c01e619a60d0184696b1030cde2e3086943f1 |
|
MD5 | da3d4bf661213c6f6edac48a6c599639 |
|
BLAKE2b-256 | 3ca8149700bd6087fbffdbe85d32a7587f497cf45c432864d0000eef6bad1020 |
关闭
ml_datasets-0.2.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5adf087a2a8ff67ddbfc297f3bd7dd69a88d5c7f8f95d21cc1e96fef5a10ad3a |
|
MD5 | 57af26a2844b672b69ac7095090c55b4 |
|
BLAKE2b-256 | 5104caa6c271b2dac193b9699745f67a7841eec38442329e0590e50b1938b831 |