机器学习数据集加载器

项目描述

用于测试和示例的机器学习数据集加载器

用于测试和示例脚本的多种机器学习数据集加载器。之前在 thinc.extra.datasets 中。

设置和安装

可以通过pip安装此软件包

pip install ml-datasets

加载器

可以直接导入加载器或通过它们的字符串名称（如果它们通过命令行参数设置，这很有用）使用。某些加载器可能需要参数——请参阅源代码以获取详细信息。

# Import directly
from ml_datasets import imdb
train_data, dev_data = imdb()

# Load via registry
from ml_datasets import loaders
imdb_loader = loaders.get("imdb")
train_data, dev_data = imdb_loader()

可用的加载器

NLP数据集

ID / 函数	描述	NLP任务	从URL
`imdb`	IMDB情感数据集	二分类：情感分析	✓
`dbpedia`	DBPedia本体数据集	多类别单标签分类	✓
`cmu`	CMU电影类型数据集	多类别多标签分类	✓
`quora_questions`	重复Quora问题数据集	检测重复问题	✓
`reuters`	路透社数据集（不包括文本）	多类别多标签分类	✓
`snli`	斯坦福自然语言推断语料库	识别文本蕴涵	✓
`stack_exchange`	Stack Exchange数据集	问答
`ud_ancora_pos_tags`	Universal Dependencies Spanish AnCora语料库	词性标注	✓
`ud_ewtb_pos_tags`	Universal Dependencies English EWT语料库	词性标注	✓
`wikiner`	WikiNER数据	命名实体识别

其他机器学习数据集

ID / 函数	描述	机器学习任务	从URL
`mnist`	MNIST数据	图像识别	✓

数据集详细信息

IMDB

每个实例包含电影评论的文本，以及用0或1表示的情感。

train_data, dev_data = ml_datasets.imdb()
for text, annot in train_data[0:5]:
    print(f"Review: {text}")
    print(f"Sentiment: {annot}")

下载链接： http://ai.stanford.edu/~amaas/data/sentiment/
参考文献： Andrew L. Maas等人，2011

属性	训练	开发
实例数量	25000	25000
标签值	{`0`, `1`}	{`0`, `1`}
每个实例的标签数	单标签	单标签
标签分布	平衡（50/50）	平衡（50/50）

DBPedia

每个实例包含一个本体描述，以及将其分类到14个不同标签中的一个。

train_data, dev_data = ml_datasets.dbpedia()
for text, annot in train_data[0:5]:
    print(f"Text: {text}")
    print(f"Category: {annot}")

下载链接：通过fast.ai
原始参考文献： Xiang Zhang等人，2015

属性	训练	开发
实例数量	560000	70000
标签值	`1`-`14`	`1`-`14`
每个实例的标签数	单标签	单标签
标签分布	平衡	平衡

CMU

每个实例包含一个电影描述，以及将其分类到适当的电影类型列表中。

train_data, dev_data = ml_datasets.cmu()
for text, annot in train_data[0:5]:
    print(f"Text: {text}")
    print(f"Genres: {annot}")

下载链接： http://www.cs.cmu.edu/~ark/personas/
原始参考文献： David Bamman等人，2013

属性	训练	开发
实例数量	41793	0
标签值	363个不同的类型	-
每个实例的标签数	多标签	-
标签分布	不平衡：有少于20个实例的147个标签，而`戏剧`标签出现超过19000次	-

Quora

train_data, dev_data = ml_datasets.quora_questions()
for questions, annot in train_data[0:50]:
    q1, q2 = questions
    print(f"Question 1: {q1}")
    print(f"Question 2: {q2}")
    print(f"Similarity: {annot}")

每个实例包含两个Quora问题，以及一个标签表示它们是否重复（0：不重复，1：重复）。真实标签包含一定量的噪声：不能保证它们是完美的。

下载链接： http://qim.fs.quoracdn.net/quora_duplicate_questions.tsv
原始参考文献： Kornél Csernai等人，2017

属性	训练	开发
实例数量	363859	40429
标签值	{`0`, `1`}	{`0`, `1`}
每个实例的标签数	单标签	单标签
标签分布	不平衡：63%的标签为`0`	不平衡：63%的标签为`0`

注册加载器

可以使用loaders注册表作为装饰器在外部注册加载器。例如

@ml_datasets.loaders("my_custom_loader")
def my_custom_loader():
    return load_some_data()

assert "my_custom_loader" in ml_datasets.loaders

项目详情

发布历史发布通知 | RSS源

此版本

0.2.0

2021年1月31日

0.2.0a0 预发布

2020年9月17日

0.1.6

2020年1月23日

0.1.5

2020年1月21日

0.1.4

2020年1月15日

0.1.3

2020年1月9日

0.1.2

2020年1月8日

0.1.1

2020年1月7日

0.1.0

2020年1月7日

0.0.3

2019年12月28日

0.0.2

2019年12月28日

0.0.1

2019年12月28日

下载文件

下载适合您平台的文件。如果您不确定该选择哪个，请了解有关安装包的更多信息。

源分发

ml_datasets-0.2.0.tar.gz (13.0 kB 查看哈希值)

上传时间 2021年1月31日 源

构建分发

ml_datasets-0.2.0-py3-none-any.whl (15.9 kB 查看哈希值)

上传时间 2021年1月31日 Python 3

ml_datasets-0.2.0.tar.gz的哈希值

ml_datasets-0.2.0.tar.gz的哈希值
算法	哈希摘要
SHA256	`3f9c8901f8d6be3dab5b23ec3a6c01e619a60d0184696b1030cde2e3086943f1`
MD5	`da3d4bf661213c6f6edac48a6c599639`
BLAKE2b-256	`3ca8149700bd6087fbffdbe85d32a7587f497cf45c432864d0000eef6bad1020`

ml_datasets-0.2.0-py3-none-any.whl的哈希值

ml_datasets-0.2.0-py3-none-any.whl的哈希值
算法	哈希摘要
SHA256	`5adf087a2a8ff67ddbfc297f3bd7dd69a88d5c7f8f95d21cc1e96fef5a10ad3a`
MD5	`57af26a2844b672b69ac7095090c55b4`
BLAKE2b-256	`5104caa6c271b2dac193b9699745f67a7841eec38442329e0590e50b1938b831`

ml-datasets 0.2.0

导航

验证详细信息

维护者

未验证详细信息

项目链接

元数据

项目描述

用于测试和示例的机器学习数据集加载器

设置和安装

加载器

可用的加载器

NLP数据集

其他机器学习数据集

数据集详细信息

IMDB

DBPedia

CMU

Quora

注册加载器

项目详情

验证详细信息

维护者

未验证详细信息

项目链接

元数据

发布历史发布通知 | RSS源

下载文件

源分发

构建分发

ml-datasets 0.2.0

导航

验证详细信息

维护者

未验证详细信息

项目链接

元数据

项目描述

用于测试和示例的机器学习数据集加载器

设置和安装

加载器

可用的加载器

NLP数据集

其他机器学习数据集

数据集详细信息

IMDB

DBPedia

CMU

Quora

注册加载器

项目详情

验证详细信息

维护者

未验证详细信息

项目链接

元数据

发布历史 发布通知 | RSS源

下载文件

源分发

构建分发

发布历史发布通知 | RSS源