PyTorch的文本工具、模型、转换和数据集。
项目描述
torchtext
注意:截至2023年9月,我们已暂停TorchText的积极开发,因为我们已将重点从构建此库提供的服务转移。我们将继续发布新版本,但在此空间未来的投资确定之前,我们不期待任何新功能的发展。
此存储库包含
torchtext.datasets:常见NLP数据集的原始文本迭代器
torchtext.data:一些基本的NLP构建块
torchtext.transforms:基本的文本处理转换
torchtext.models:预训练模型
torchtext.vocab:词汇和向量相关的类和工厂函数
examples:使用 PyTorch 和 torchtext 库的示例 NLP 工作流程。
安装
我们推荐使用 Anaconda 作为 Python 软件包管理系统。有关 PyTorch 安装的详细信息,请参阅 pytorch.org。以下是对应的 torchtext 版本和支持的 Python 版本。
PyTorch 版本 |
torchtext 版本 |
支持的 Python 版本 |
---|---|---|
夜间构建版本 |
主版本 |
>=3.8, <=3.11 |
2.2.0 |
0.17.0 |
>=3.8, <=3.11 |
2.1.0 |
0.16.0 |
>=3.8, <=3.11 |
2.0.0 |
0.15.0 |
>=3.8, <=3.11 |
1.13.0 |
0.14.0 |
>=3.7, <=3.10 |
1.12.0 |
0.13.0 |
>=3.7, <=3.10 |
1.11.0 |
0.12.0 |
>=3.6, <=3.9 |
1.10.0 |
0.11.0 |
>=3.6, <=3.9 |
1.9.1 |
0.10.1 |
>=3.6, <=3.9 |
1.9 |
0.10 |
>=3.6, <=3.9 |
1.8.1 |
0.9.1 |
>=3.6, <=3.9 |
1.8 |
0.9 |
>=3.6, <=3.9 |
1.7.1 |
0.8.1 |
>=3.6, <=3.9 |
1.7 |
0.8 |
>=3.6, <=3.8 |
1.6 |
0.7 |
>=3.6, <=3.8 |
1.5 |
0.6 |
>=3.5, <=3.8 |
1.4 |
0.5 |
2.7, >=3.5, <=3.8 |
0.4 及以下 |
0.2.3 |
2.7, >=3.5, <=3.8 |
使用 conda
conda install -c pytorch torchtext
使用 pip
pip install torchtext
可选要求
如果您想使用来自 SpaCy 的英语分词器,则需要安装 SpaCy 并下载其英语模型
pip install spacy python -m spacy download en_core_web_sm
或者,您可能想使用在 SacreMoses(从 NLTK 分离出来)中的 Moses 分词器端口(split from NLTK)。您必须安装 SacreMoses
pip install sacremoses
对于 torchtext 0.5 及以下版本,sentencepiece
conda install -c powerai sentencepiece
从源代码构建
要从源代码构建 torchtext,您需要 git、CMake 和 C++11 编译器,例如 g++。
git clone https://github.com/pytorch/text torchtext cd torchtext git submodule update --init --recursive # Linux python setup.py clean install # OSX CC=clang CXX=clang++ python setup.py clean install # or ``python setup.py develop`` if you are making modifications.
注意
从源代码构建时,请确保您拥有与构建 PyTorch 时相同的 C++ 编译器。一种简单的方法是从源代码构建 PyTorch 并使用相同的环境来构建 torchtext。如果您使用的是 PyTorch 的夜间构建版本,请检查其构建环境 conda(在此处) 和 pip(在此处)。
此外,torchtext 中的数据集是使用 torchdata 库实现的。请参阅 安装说明 下载最新版本或从源代码安装。
文档
在此处找到文档 here。
数据集
数据集模块目前包含
语言模型:WikiText2、WikiText103、PennTreebank、EnWik9
机器翻译:IWSLT2016、IWSLT2017、Multi30k
序列标注(例如 POS/NER):UDPOS、CoNLL2000Chunking
问答:SQuAD1、SQuAD2
文本分类:SST2、AG_NEWS、SogouNews、DBpedia、YelpReviewPolarity、YelpReviewFull、YahooAnswers、AmazonReviewPolarity、AmazonReviewFull、IMDB
模型预训练:CC-100
模型
该库目前包含以下预训练模型
RoBERTa:基础架构和大型架构
XLM-RoBERTa:基础架构和大型架构
Flan-T5:基础、大型、XL 和 XXL 架构
分词器
transform 模块目前支持以下可脚本化分词器
教程
要开始使用 torchtext,用户可以参考 PyTorch 网站上提供的以下教程。
关于数据集的免责声明
这是一个下载和准备公共数据集的实用库。我们不托管或分发这些数据集,不保证其质量或公平性,也不声称您有权使用这些数据集。您有责任确定您是否获得数据集许可下的使用许可。
如果您是数据集所有者并希望更新其任何部分(描述、引用等),或者不希望您的数据集包含在这个库中,请通过GitHub问题与我们联系。感谢您对机器学习社区的贡献!
项目详情
torchtext-0.18.0-cp312-cp312-win_amd64.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 99b5148f77aa5d94adb8d4d5b684181d87673b90ba266d858b1dd8812b418b95 |
|
MD5 | 4a44583f05a25aaf47c5ff620f3fb2dc |
|
BLAKE2b-256 | fde3cbdeadc9f32ae807569c6e3f9e61e12e869c243405375bcdd2fb337b65a5 |
torchtext-0.18.0-cp312-cp312-manylinux1_x86_64.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | eeebf2ec950c9f9d3b276faf6948e763836c215747354f0340746b32512d11f6 |
|
MD5 | 8766a7d2600522fe9af7b5c825b4f5a2 |
|
BLAKE2b-256 | 651326c37c5433658d3f1eb30be07a4b42b29893bc42ff7cb7261ef6e474fc3c |
torchtext-0.18.0-cp312-cp312-macosx_11_0_arm64.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | fec43696fb6fa7573e740a8175fd69681106574fd1fc840211182d941b88a2ba |
|
MD5 | 73b6a5ef5c5c8377916c3d1aa8b40605 |
|
BLAKE2b-256 | 8b80c78f88844e576c21580e64bd93de9df9bca223fef3e8195345680eb6f87f |
哈希值 用于 torchtext-0.18.0-cp311-cp311-manylinux1_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7ac7a392ae42d8b7675bdb31f1764bec77d4dec3a44bca5a2644c2cee3484453 |
|
MD5 | 17c48f6e53275e8fe643fb38f5dd8297 |
|
BLAKE2b-256 | 130a0d1e5426dbab2171551fe1b53e3ed80f42dbcadf7c28cc3676f0e311dc2f |
哈希值 用于 torchtext-0.18.0-cp311-cp311-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0f3855b2ada84f02298e72ad19c1a86f940df2f4ce62d89098955f3ae575d174 |
|
MD5 | 56e789c5824491b82aa3c53ee6e28f9c |
|
BLAKE2b-256 | 612238bba8f6255f3e58b7f9d66cc988e044ee8cfb4edf0c57f4a7918e7c4aa6 |
哈希值 用于 torchtext-0.18.0-cp310-cp310-manylinux1_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3dc446f74aaa9aebab045fbefd102752675258e72ba447982c65e010e1cfd29a |
|
MD5 | 86546fa30dac1f2da3e291960d3cc282 |
|
BLAKE2b-256 | d74f9953b4d4b79917e03c393484ea8ce8f46a4cc1745f272cc371550fb7fc05 |
哈希值 用于 torchtext-0.18.0-cp310-cp310-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5826d5bbfe84a3c533e7e97659f72dbff73e1614c00c06709607d17c8446e09c |
|
MD5 | c546b66425ac236ff6899b6d85ff2815 |
|
BLAKE2b-256 | cc941e805ef3ec6541de75e8a86c32e00be471d98cdcef5035ad26457bc388cf |
哈希值 用于 torchtext-0.18.0-cp39-cp39-manylinux1_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8e8d847a5e359718c1a97cab363de93aef93733c102528231f3b36c9cf580ce2 |
|
MD5 | 3de834b68d8a0ace2a91f8a467b67b90 |
|
BLAKE2b-256 | 1d181cc071c71049cc58460e417e6d0ca39b49f65db313218eb7d22a5305f181 |
哈希值 用于 torchtext-0.18.0-cp39-cp39-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b74b0b1e93ff852a0410bdf2b630f4b00a870ec95be6266e01cd5e19acdf3e95 |
|
MD5 | 527b34ed0b56b2b755d4232a1e8bf01c |
|
BLAKE2b-256 | 23f4fec80f6bd3ba2ef7e998929b1cb52e44e1d30067918c8976bbabc789838d |
哈希值 用于 torchtext-0.18.0-cp38-cp38-manylinux1_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0d60cde93217086372e6819806298a327aaa71f1818ff9c54380bbd5995dda78 |
|
MD5 | be846e10380f66c86691fbfa33529b06 |
|
BLAKE2b-256 | 4d1fd5a981bdd81919dbc950c495d6b8670ed9e995e40c0927127e4a2a3e8fb2 |
哈希值 用于 torchtext-0.18.0-cp38-cp38-macosx_11_0_arm64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6694b823cb409706a0efe4d6b0ccf6b5be5af695fad29aa062f1f63bd296e77b |
|
MD5 | 02a6d5ad90e72c00cc49bf3a6f5f3a4c |
|
BLAKE2b-256 | 677a97421e05c4e6f6e03fbb41a68398c72ebecfdf53910dea91a4f0dcb8813d |