HuggingFace社区驱动的开源数据集库

这些详情尚未由PyPI验证

项目链接

项目描述

Hugging Face Datasets Library

🤗 Datasets 是一个轻量级库，提供以下两个主要功能

针对多个公共数据集的一行式数据加载器：一行代码即可下载和预处理HuggingFace数据集库（https://hugging-face.cn/datasets）上提供的所有主要公共数据集（图像数据集、音频数据集、467种语言和方言的文本数据集等）。只需简单命令如squad_dataset = load_dataset("squad")，即可准备这些数据集，用于训练/评估机器学习模型（Numpy/Pandas/PyTorch/TensorFlow/JAX）。
高效数据预处理：对公共数据集以及CSV、JSON、文本、PNG、JPEG、WAV、MP3、Parquet等本地数据集进行简单、快速且可重复的数据预处理。使用简单命令如processed_dataset = dataset.map(process_example)，高效准备数据集以进行审查和机器学习模型评估及训练。

🎓 文档 🔎 在Hub中查找数据集 🌟 在Hub上分享数据集

🤗 Datasets旨在让社区轻松添加和共享新的数据集。

🤗 Datasets具有许多其他有趣的功能

在大型数据集上茁壮成长：🤗 Datasets自然地使用高效的零序列化成本后端（Apache Arrow）对数据集进行内存映射，从而使用户从RAM内存限制中解放出来。
智能缓存：无需等待数据多次处理。
轻量级且快速，具有透明且Pythonic的API（多进程/缓存/内存映射）。
与NumPy、pandas、PyTorch、TensorFlow 2和JAX内置互操作性。
原生支持音频和图像数据。
启用流模式以节省磁盘空间，并立即开始遍历数据集。

🤗 Datasets起源于TensorFlow Datasets的分支，HuggingFace团队衷心感谢TensorFlow Datasets团队构建了这个惊人的库。有关🤗 Datasets与tfds之间主要差异的更多详细信息，请参阅🤗 Datasets与tfds的主要差异部分。

安装

使用pip

🤗 Datasets可以从PyPi安装，并需要在虚拟环境中安装（例如venv或conda）。

pip install datasets

使用conda

🤗 Datasets可以使用以下命令使用conda进行安装：

conda install -c huggingface -c conda-forge datasets

请遵循TensorFlow和PyTorch的安装页面，了解如何使用conda安装它们。

有关安装的更多详细信息，请参阅文档中的安装页面：https://hugging-face.cn/docs/datasets/installation

安装以与PyTorch/TensorFlow/pandas一起使用

如果您计划使用🤗 Datasets与PyTorch（1.0+）、TensorFlow（2.2+）或pandas一起使用，您还应安装PyTorch、TensorFlow或pandas。

有关使用NumPy、pandas、PyTorch或TensorFlow的库的更多详细信息，请参阅文档中的快速入门页面：https://hugging-face.cn/docs/datasets/quickstart

使用

🤗 Datasets旨在非常易于使用 - API围绕单个函数构建，即datasets.load_dataset(dataset_name, **kwargs)，该函数实例化数据集。

此库可用于文本、图像、音频等数据集。以下是一个加载文本数据集的示例：

以下是一个快速示例：

from datasets import load_dataset

# Print all the available datasets
from huggingface_hub import list_datasets
print([dataset.id for dataset in list_datasets()])

# Load a dataset and print the first example in the training set
squad_dataset = load_dataset('squad')
print(squad_dataset['train'][0])

# Process the dataset - add a column with the length of the context texts
dataset_with_length = squad_dataset.map(lambda x: {"length": len(x["context"])})

# Process the dataset - tokenize the context texts (using a tokenizer from the 🤗 Transformers library)
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')

tokenized_dataset = squad_dataset.map(lambda x: tokenizer(x['context']), batched=True)

如果您的数据集大于您的磁盘，或者您不想等待下载数据，则可以使用流模式。

# If you want to use the dataset immediately and efficiently stream the data as you iterate over the dataset
image_dataset = load_dataset('cifar100', streaming=True)
for example in image_dataset["train"]:
    break

有关使用库的更多详细信息，请参阅文档中的快速入门页面：https://hugging-face.cn/docs/datasets/quickstart 和具体页面

加载数据集： https://hugging-face.cn/docs/datasets/loading
数据集包含什么：https://hugging-face.cn/docs/datasets/access
使用 🤗 Datasets 处理数据：https://hugging-face.cn/docs/datasets/process
- 处理音频数据：https://hugging-face.cn/docs/datasets/audio_process
- 处理图像数据：https://hugging-face.cn/docs/datasets/image_process
- 处理文本数据：https://hugging-face.cn/docs/datasets/nlp_process
流式传输数据集：https://hugging-face.cn/docs/datasets/stream
编写自己的数据集加载脚本：https://hugging-face.cn/docs/datasets/dataset_script
等等。

将新的数据集添加到 Hub

我们有一个非常详细的一步一步指南，指导您将新的数据集添加到 number of datasets 数据集，这些数据集已经提供在 HuggingFace Datasets Hub 上。

您可以在以下位置找到

🤗 Datasets 与 `tfds` 之间的主要区别

如果您熟悉出色的 TensorFlow Datasets，以下是 🤗 Datasets 与 tfds 之间的主要区别

🤗 Datasets 中的脚本不是库中提供的，而是在请求时查询、下载/缓存和动态加载的
🤗 Datasets 的后端序列化基于 Apache Arrow 而不是 TF Records，并利用 Python 数据类来提供信息和功能（具有一些不同的功能，我们主要不进行编码，并在后端序列化缓存中尽可能多地存储原始数据）。
🤗 Datasets 的用户界面数据集对象不是 tf.data.Dataset，而是一个内置的框架无关的数据集类，其方法灵感来自我们对 tf.data 的喜爱（如 map() 方法）。它基本上封装了一个内存映射的 Arrow 表缓存。

免责声明

🤗 Datasets 可能会运行数据集作者定义的 Python 代码来解析某些数据格式或结构。出于安全原因，我们要求用户

在运行之前检查他们将要运行的数据集脚本，并
锁定他们使用的存储库的 修订版。

如果您是数据集的所有者并希望更新其任何部分（描述、引用、许可证等），或者不希望您的数据集包含在 Hugging Face Hub 中，请在数据集页面的“社区”选项卡中打开一个讨论或拉取请求。感谢您对机器学习社区的贡献！

BibTeX

如果您想引用我们的 🤗 Datasets 库，您可以使用我们的论文

@inproceedings{lhoest-etal-2021-datasets,
    title = "Datasets: A Community Library for Natural Language Processing",
    author = "Lhoest, Quentin  and
      Villanova del Moral, Albert  and
      Jernite, Yacine  and
      Thakur, Abhishek  and
      von Platen, Patrick  and
      Patil, Suraj  and
      Chaumond, Julien  and
      Drame, Mariama  and
      Plu, Julien  and
      Tunstall, Lewis  and
      Davison, Joe  and
      {\v{S}}a{\v{s}}ko, Mario  and
      Chhablani, Gunjan  and
      Malik, Bhavitvya  and
      Brandeis, Simon  and
      Le Scao, Teven  and
      Sanh, Victor  and
      Xu, Canwen  and
      Patry, Nicolas  and
      McMillan-Major, Angelina  and
      Schmid, Philipp  and
      Gugger, Sylvain  and
      Delangue, Cl{\'e}ment  and
      Matussi{\`e}re, Th{\'e}o  and
      Debut, Lysandre  and
      Bekman, Stas  and
      Cistac, Pierric  and
      Goehringer, Thibault  and
      Mustar, Victor  and
      Lagunas, Fran{\c{c}}ois  and
      Rush, Alexander  and
      Wolf, Thomas",
    booktitle = "Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations",
    month = nov,
    year = "2021",
    address = "Online and Punta Cana, Dominican Republic",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.emnlp-demo.21",
    pages = "175--184",
    abstract = "The scale, variety, and quantity of publicly-available NLP datasets has grown rapidly as researchers propose new tasks, larger models, and novel benchmarks. Datasets is a community library for contemporary NLP designed to support this ecosystem. Datasets aims to standardize end-user interfaces, versioning, and documentation, while providing a lightweight front-end that behaves similarly for small datasets as for internet-scale corpora. The design of the library incorporates a distributed, community-driven approach to adding datasets and documenting usage. After a year of development, the library now includes more than 650 unique datasets, has more than 250 contributors, and has helped support a variety of novel cross-dataset research projects and shared tasks. The library is available at https://github.com/huggingface/datasets.",
    eprint={2109.02846},
    archivePrefix={arXiv},
    primaryClass={cs.CL},
}

如果您需要引用我们 🤗 Datasets 库的特定版本以实现可重复性，您可以使用此列表中相应的 Zenodo DOI 版本。

项目详情

这些详情尚未由PyPI验证

项目链接

发布历史发布通知 | RSS 源

此版本

3.0.1

2024 年 9 月 26 日

3.0.0

2024 年 9 月 11 日

2.21.0

2024 年 8 月 14 日

2.20.0

2024 年 6 月 13 日

2.19.2

2024 年 6 月 3 日

2.19.1

2024 年 5 月 6 日

2.19.0

2024 年 4 月 19 日

2.18.0

2024 年 3 月 1 日

2.17.1

2024 年 2 月 19 日

2.17.0

2024 年 2 月 9 日

2.16.1

2023 年 12 月 30 日

2.16.0

2023 年 12 月 22 日

2.15.0

2023 年 11 月 16 日

2.14.7

2023 年 11 月 15 日

2.14.6

2023 年 10 月 23 日

2.14.5

2023 年 9 月 6 日

2.14.4

2023 年 8 月 8 日

2.14.3

2023 年 8 月 3 日

2.14.2

2023 年 7 月 31 日

2.14.1

2023 年 7 月 27 日

2.14.0

2023 年 7 月 24 日

2.13.2

2023 年 9 月 6 日

2.13.1

2023年6月22日

2.13.0

2023年6月14日

2.12.0

2023年4月28日

2.11.0

2023年3月29日

2.10.1

2023年2月28日

2.10.0

2023年2月22日

2.9.0

2023年1月26日

2.8.0

2022年12月19日

2.7.1

2022年11月22日

2.7.0

2022年11月16日

2.6.2

2022年11月22日

2.6.1

2022年10月14日

2.6.0

2022年10月13日

2.5.2

2022年10月5日

2.5.1

2022年9月21日

2.5.0

2022年9月21日

2.4.0

2022年7月25日

2.3.2

2022年6月15日

2.3.1

2022年6月15日

2.3.0

2022年6月14日

2.2.2

2022年5月20日

2.2.1

2022年5月11日

2.2.0

2022年5月10日

2.1.0

2022年4月14日

2.0.0

2022年3月15日

1.18.4

2022年3月7日

1.18.3

2022年2月2日

1.18.2

2022年1月28日

1.18.1

2022年1月26日

1.18.0

2022年1月21日

1.17.0

2021年12月21日

1.16.1

2021年11月26日

1.16.0

2021年11月26日

1.15.1

2021年11月2日

1.15.0

2021年11月2日

1.14.0

2021年10月19日

1.13.3

2021年10月15日

1.13.2

2021年10月14日

1.13.1

2021年10月14日

1.13.0

2021年10月13日

1.12.1

2021年9月15日

1.12.0

2021年9月13日

1.11.0

2021年7月30日

1.10.2

2021年7月22日

1.10.1

2021年7月22日

1.10.0

2021年7月21日

1.9.0

2021年7月5日

1.8.0

2021年6月8日

1.7.0

2021年5月27日

1.6.2

2021年4月30日

1.6.1

2021年4月26日

1.6.0

2021年4月20日

1.5.0

2021年3月18日

1.4.1

2021年3月4日

1.4.0

2021年3月3日

1.3.0

2021年2月15日

1.2.1

2021年1月13日

1.2.0

2021年1月4日

1.1.3

2020年11月19日

1.1.2

2020年10月6日

1.1.1

2020年10月6日

1.1.0

2020年10月2日

1.0.2

2020年9月21日

1.0.1

2020年9月11日

1.0.0

2020年9月10日

0.0.9

2015年8月18日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

datasets-3.0.1.tar.gz (1.9 MB 查看哈希值)

上传时间 2024年9月26日 源

构建分布

datasets-3.0.1-py3-none-any.whl (471.6 kB 查看哈希值)

上传时间 2024年9月26日 Python 3

哈希值 for datasets-3.0.1.tar.gz

哈希值 for datasets-3.0.1.tar.gz
算法	哈希摘要
SHA256	`40d63b09e76a3066c32e746d6fdc36fd3f29ed2acd49bf5b1a2100da32936511`
MD5	`aba72d08d5c29b0a6953bc4c84dddc17`
BLAKE2b-256	`3b1bce839a6a127935f8e87a8d5887e7dfa76cbdbe94ee7ac04c855221ea1e0a`

哈希值 for datasets-3.0.1-py3-none-any.whl

哈希值 for datasets-3.0.1-py3-none-any.whl
算法	哈希摘要
SHA256	`db080aab41c8cc68645117a0f172e5c6789cbc672f066de0aa5a08fc3eebc686`
MD5	`0b1b71811b59bdf0440b4b2663020513`
BLAKE2b-256	`be3ee58d4db4cfe71e3ed07d169af24db30cfd582e16f977378bd43fd7ec1998`

datasets 3.0.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

安装

使用pip

使用conda

安装以与PyTorch/TensorFlow/pandas一起使用

使用

将新的数据集添加到 Hub

🤗 Datasets 与 `tfds` 之间的主要区别

免责声明

BibTeX

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS 源

下载文件

源分布

构建分布

datasets 3.0.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

安装

使用pip

使用conda

安装以与PyTorch/TensorFlow/pandas一起使用

使用

将新的数据集添加到 Hub

🤗 Datasets 与 tfds 之间的主要区别

免责声明

BibTeX

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS 源

下载文件

源分布

构建分布

🤗 Datasets 与 `tfds` 之间的主要区别

发布历史发布通知 | RSS 源