跳转到主要内容

轻量级片段标记库

项目描述

🥢 Curated Tokenizers

此Python库提供单词/句子片段标记器。以下类型的标记器目前受到支持

标记器 绑定 示例模型
BPE sentencepiece
字节BPE 本地 RoBERTa/GPT-2
单语 sentencepiece XLM-RoBERTa
单词片段 本地 BERT

⚠️ 警告:实验性包

此包是实验性的,API可能在不兼容的方式中更改。

⏳ 安装

Curated tokenizers可通过PyPI获得

pip install curated_tokenizers

🚀 快速入门

开始使用curated tokenizers的最佳方式是通过curated-transformers库。 curated-transformers还提供了从Huggingface Hub加载标记化模型的功能。

项目详情


下载文件

下载您平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源代码分发

curated_tokenizers-2.0.0.tar.gz (2.3 MB 查看哈希值)

上传时间 源代码

构建分发

curated_tokenizers-2.0.0-cp312-cp312-win_amd64.whl (761.3 kB 查看哈希值)

上传时间 CPython 3.12 Windows x86-64

curated_tokenizers-2.0.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (775.2 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ x86-64

curated_tokenizers-2.0.0-cp312-cp312-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (746.4 kB 查看哈希值)

上传时间 CPython 3.12 manylinux: glibc 2.17+ ARM64

curated_tokenizers-2.0.0-cp312-cp312-macosx_11_0_arm64.whl (741.4 kB 查看哈希值)

上传时间 CPython 3.12 macOS 11.0+ ARM64

curated_tokenizers-2.0.0-cp312-cp312-macosx_10_9_x86_64.whl (775.0 kB 查看哈希值)

上传时间 CPython 3.12 macOS 10.9+ x86-64

curated_tokenizers-2.0.0-cp311-cp311-win_amd64.whl (760.9 kB 查看哈希值)

上传时间 CPython 3.11 Windows x86-64

curated_tokenizers-2.0.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (776.9 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ x86-64

curated_tokenizers-2.0.0-cp311-cp311-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (749.6 kB 查看哈希值)

上传时间 CPython 3.11 manylinux: glibc 2.17+ ARM64

curated_tokenizers-2.0.0-cp311-cp311-macosx_11_0_arm64.whl (742.0 kB 查看哈希值)

上传于 CPython 3.11 macOS 11.0+ ARM64

curated_tokenizers-2.0.0-cp311-cp311-macosx_10_9_x86_64.whl (774.6 kB 查看哈希值)

上传于 CPython 3.11 macOS 10.9+ x86-64

curated_tokenizers-2.0.0-cp310-cp310-win_amd64.whl (760.7 kB 查看哈希值)

上传于 CPython 3.10 Windows x86-64

curated_tokenizers-2.0.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (772.8 kB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ x86-64

curated_tokenizers-2.0.0-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (745.7 kB 查看哈希值)

上传于 CPython 3.10 manylinux: glibc 2.17+ ARM64

curated_tokenizers-2.0.0-cp310-cp310-macosx_11_0_arm64.whl (741.8 kB 查看哈希值)

上传于 CPython 3.10 macOS 11.0+ ARM64

curated_tokenizers-2.0.0-cp310-cp310-macosx_10_9_x86_64.whl (773.9 kB 查看哈希值)

上传于 CPython 3.10 macOS 10.9+ x86-64

curated_tokenizers-2.0.0-cp39-cp39-win_amd64.whl (762.3 kB 查看哈希值)

上传于 CPython 3.9 Windows x86-64

curated_tokenizers-2.0.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (774.8 kB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ x86-64

curated_tokenizers-2.0.0-cp39-cp39-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (747.6 kB 查看哈希值)

上传于 CPython 3.9 manylinux: glibc 2.17+ ARM64

curated_tokenizers-2.0.0-cp39-cp39-macosx_11_0_arm64.whl (743.3 kB 查看哈希值)

上传于 CPython 3.9 macOS 11.0+ ARM64

curated_tokenizers-2.0.0-cp39-cp39-macosx_10_9_x86_64.whl (775.9 kB 查看哈希值)

上传时间: CPython 3.9 macOS 10.9+ x86-64

支持者