跳转到主要内容

PyTorch的文本工具、模型、转换和数据集。

项目描述

docs/source/_static/img/torchtext_logo.png https://circleci.com/gh/pytorch/text.svg?style=svg https://codecov.io/gh/pytorch/text/branch/main/graph/badge.svg https://img.shields.io/badge/dynamic/json.svg?label=docs&url=https%3A%2F%2Fpypi.org%2Fpypi%2Ftorchtext%2Fjson&query=%24.info.version&colorB=brightgreen&prefix=v

torchtext

注意:截至2023年9月,我们已暂停TorchText的积极开发,因为我们已将重点从构建此库提供的服务转移。我们将继续发布新版本,但在此空间未来的投资确定之前,我们不期待任何新功能的发展。

此存储库包含

安装

我们推荐使用 Anaconda 作为 Python 软件包管理系统。有关 PyTorch 安装的详细信息,请参阅 pytorch.org。以下是对应的 torchtext 版本和支持的 Python 版本。

版本兼容性

PyTorch 版本

torchtext 版本

支持的 Python 版本

夜间构建版本

主版本

>=3.8, <=3.11

2.2.0

0.17.0

>=3.8, <=3.11

2.1.0

0.16.0

>=3.8, <=3.11

2.0.0

0.15.0

>=3.8, <=3.11

1.13.0

0.14.0

>=3.7, <=3.10

1.12.0

0.13.0

>=3.7, <=3.10

1.11.0

0.12.0

>=3.6, <=3.9

1.10.0

0.11.0

>=3.6, <=3.9

1.9.1

0.10.1

>=3.6, <=3.9

1.9

0.10

>=3.6, <=3.9

1.8.1

0.9.1

>=3.6, <=3.9

1.8

0.9

>=3.6, <=3.9

1.7.1

0.8.1

>=3.6, <=3.9

1.7

0.8

>=3.6, <=3.8

1.6

0.7

>=3.6, <=3.8

1.5

0.6

>=3.5, <=3.8

1.4

0.5

2.7, >=3.5, <=3.8

0.4 及以下

0.2.3

2.7, >=3.5, <=3.8

使用 conda

conda install -c pytorch torchtext

使用 pip

pip install torchtext

可选要求

如果您想使用来自 SpaCy 的英语分词器,则需要安装 SpaCy 并下载其英语模型

pip install spacy
python -m spacy download en_core_web_sm

或者,您可能想使用在 SacreMoses(从 NLTK 分离出来)中的 Moses 分词器端口(split from NLTK)。您必须安装 SacreMoses

pip install sacremoses

对于 torchtext 0.5 及以下版本,sentencepiece

conda install -c powerai sentencepiece

从源代码构建

要从源代码构建 torchtext,您需要 gitCMake 和 C++11 编译器,例如 g++

git clone https://github.com/pytorch/text torchtext
cd torchtext
git submodule update --init --recursive

# Linux
python setup.py clean install

# OSX
CC=clang CXX=clang++ python setup.py clean install

# or ``python setup.py develop`` if you are making modifications.

注意

从源代码构建时,请确保您拥有与构建 PyTorch 时相同的 C++ 编译器。一种简单的方法是从源代码构建 PyTorch 并使用相同的环境来构建 torchtext。如果您使用的是 PyTorch 的夜间构建版本,请检查其构建环境 conda(在此处)pip(在此处)

此外,torchtext 中的数据集是使用 torchdata 库实现的。请参阅 安装说明 下载最新版本或从源代码安装。

文档

在此处找到文档 here

数据集

数据集模块目前包含

  • 语言模型:WikiText2、WikiText103、PennTreebank、EnWik9

  • 机器翻译:IWSLT2016、IWSLT2017、Multi30k

  • 序列标注(例如 POS/NER):UDPOS、CoNLL2000Chunking

  • 问答:SQuAD1、SQuAD2

  • 文本分类:SST2、AG_NEWS、SogouNews、DBpedia、YelpReviewPolarity、YelpReviewFull、YahooAnswers、AmazonReviewPolarity、AmazonReviewFull、IMDB

  • 模型预训练:CC-100

模型

该库目前包含以下预训练模型

分词器

transform 模块目前支持以下可脚本化分词器

教程

要开始使用 torchtext,用户可以参考 PyTorch 网站上提供的以下教程。

关于数据集的免责声明

这是一个下载和准备公共数据集的实用库。我们不托管或分发这些数据集,不保证其质量或公平性,也不声称您有权使用这些数据集。您有责任确定您是否获得数据集许可下的使用许可。

如果您是数据集所有者并希望更新其任何部分(描述、引用等),或者不希望您的数据集包含在这个库中,请通过GitHub问题与我们联系。感谢您对机器学习社区的贡献!

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

此版本没有可用的源分布文件。请参阅生成分布存档的教程。

构建分布

torchtext-0.18.0-cp312-cp312-win_amd64.whl (2.0 MB 查看哈希值)

上传时间 CPython 3.12 Windows x86-64

torchtext-0.18.0-cp312-cp312-manylinux1_x86_64.whl (2.0 MB 查看哈希值)

上传时间 CPython 3.12

torchtext-0.18.0-cp312-cp312-macosx_11_0_arm64.whl (2.1 MB 查看哈希值)

上传时间 CPython 3.12 macOS 11.0+ ARM64

torchtext-0.18.0-cp311-cp311-win_amd64.whl (1.9 MB 查看哈希值)

上传时间 CPython 3.11 Windows x86-64

torchtext-0.18.0-cp311-cp311-manylinux1_x86_64.whl (2.0 MB 查看哈希值)

上传时间 CPython 3.11

torchtext-0.18.0-cp311-cp311-macosx_11_0_arm64.whl (2.1 MB 查看哈希值)

上传时间 CPython 3.11 macOS 11.0+ ARM64

torchtext-0.18.0-cp310-cp310-win_amd64.whl (1.9 MB 查看哈希值)

上传于 CPython 3.10 Windows x86-64

torchtext-0.18.0-cp310-cp310-manylinux1_x86_64.whl (2.0 MB 查看哈希值)

上传于 CPython 3.10

torchtext-0.18.0-cp310-cp310-macosx_11_0_arm64.whl (2.1 MB 查看哈希值)

上传于 CPython 3.10 macOS 11.0+ ARM64

torchtext-0.18.0-cp39-cp39-win_amd64.whl (1.9 MB 查看哈希值)

上传于 CPython 3.9 Windows x86-64

torchtext-0.18.0-cp39-cp39-manylinux1_x86_64.whl (2.0 MB 查看哈希值)

上传于 CPython 3.9

torchtext-0.18.0-cp39-cp39-macosx_11_0_arm64.whl (2.1 MB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

torchtext-0.18.0-cp38-cp38-win_amd64.whl (2.0 MB 查看哈希值)

上传于 CPython 3.8 Windows x86-64

torchtext-0.18.0-cp38-cp38-manylinux1_x86_64.whl (2.0 MB 查看哈希值)

上传于 CPython 3.8

torchtext-0.18.0-cp38-cp38-macosx_11_0_arm64.whl (2.1 MB 查看哈希值)

上传于 CPython 3.8 macOS 11.0+ ARM64

由以下组织支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面