nlcodec 是一组用于自然语言序列的编码方案。nlcodec.db 是一个高效存储和检索不同长度整数序列的层。

这些详情尚未由PyPI验证

项目链接

项目描述

NLCodec

Travis (.com)

📕 文档： https://isi-nlp.github.io/nlcodec

一组（低级）自然语言编码器-解码器（编码器），在NLP管道的预处理阶段非常有用。这些编码器包括将序列编码为以下之一

字符
单词
BPE 基于子词
类

它提供了 Python（可以嵌入到您的应用程序中）和 CLI API（作为独立工具使用）。

已经有许多 BPE 实现，但这个实现有所不同

纯 Python 实现，易于修改任何内容以尝试新想法。（其他实现需要 C++/Rust 专业知识来修改核心）
易于共享和检查的模型文件。这是一个简单的文本文件，可以用 less 或 cut 检查。它包含有关哪些部分被组合在一起以及频率等信息。
比其他纯 Python 实现更快。底层尝试使用双链表、最大堆、哈希表等数据结构来提高性能。
PySpark 后端用于从大型数据集中提取词频。

安装

请只运行以下之一

# Install from pypi (preferred)
$ pip install nlcodec --ignore-installed 

# Clone repo for development mode 
git clone https://github.com/isi-nlp/nlcodec
cd nlcodec
pip install --editable .

pip 安装器将这些 CLI 工具注册到您的 PATH 中

nlcodec -- 用于学习、编码和解码的 CLI。与 python -m nlcodec 相同
nlcodec-learn -- 用于学习的 BPE CLI，后端为 PySpark。与 python -m nlcodec.learn 相同
nlcodec-db -- 用于 bitextdb 的 CLI。python -m nlcodec.bitextdb
nlcodec-freq -- 使用 Spark 后端提取单词和字符频率的 CLI。

文档可在以下位置找到

HTML 格式：https://isi-nlp.github.io/nlcodec（推荐）
本地：docs/intro.adoc

引用

请参阅 https://arxiv.org/abs/2104.00290 即将出现：ACL 2021 示例

@article{DBLP:journals/corr/abs-2104-00290,
  author    = {Thamme Gowda and
               Zhao Zhang and
               Chris A. Mattmann and
               Jonathan May},
  title     = {Many-to-English Machine Translation Tools, Data, and Pretrained Models},
  journal   = {CoRR},
  volume    = {abs/2104.00290},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.00290},
  archivePrefix = {arXiv},
  eprint    = {2104.00290},
  timestamp = {Mon, 12 Apr 2021 16:14:56 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-00290.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

作者

Thamme Gowda

项目详情

这些详情尚未由PyPI验证

项目链接

发布历史发布通知 | RSS 源

此版本

0.5

2021 年 12 月 24 日

0.4.0

2021 年 8 月 4 日

0.3.2

2021 年 4 月 29 日

0.3.1

2021 年 2 月 24 日

0.3.0

2020 年 8 月 4 日

0.2.4

2020 年 7 月 14 日

0.2.3

2020 年 7 月 8 日

0.2.2

2020 年 6 月 14 日

0.2.1

2020 年 5 月 30 日

0.2.0

2020 年 4 月 17 日

下载文件

下载您平台上的文件。如果您不确定选择哪个，请了解有关安装软件包的更多信息。

源分布

nlcodec-0.5.tar.gz (41.7 kB 查看哈希值)

上传时间 2021 年 12 月 24 日 源

构建分布

nlcodec-0.5-py3-none-any.whl (53.6 kB 查看哈希值)

上传时间 2021 年 12 月 24 日 Python 3

哈希值 for nlcodec-0.5.tar.gz

nlcodec-0.5.tar.gz 的哈希值
算法	哈希摘要
SHA256	`f25f1f6486032bedee76ce96a8178a61c5202e366c4d65b968c4311408f291b8`
MD5	`474f5413b982fdb31e3dbc056cfcca14`
BLAKE2b-256	`342e9d4b9f433577d503e62c82d96c9c8a17593f440f8b3c268305d75783070e`

哈希值 for nlcodec-0.5-py3-none-any.whl

nlcodec-0.5-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`6c906d89f0d7d7ffcc3a444d3a85dfc5838c849420da901425b653aad3e435fa`
MD5	`83a44081ed13a51d9c9d8fb4cc6d3860`
BLAKE2b-256	`09a990c8f874ae72c93b9320751811d1233bf0970f0de13fbae1a59cc37c7646`

nlcodec 0.5

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

NLCodec

安装

引用

作者

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS 源

下载文件

源分布

构建分布

nlcodec 0.5

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

NLCodec

安装

引用

作者

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS 源

下载文件

源分布

构建分布

发布历史发布通知 | RSS 源