维基百科分词工具
项目描述
维基NLP工具
Python包,用于执行语言无关的分词。
愿景
- 研究人员可以从维基百科文章(wikitext或HTML)开始,去除语法以仅保留纯文本段落,然后将这些句子进一步分词成句子和单词以输入到模型中。
- 这将是无语言的 - 即,无论维基百科的语言如何,该库都能同样有效地工作。 https://meta.wikimedia.org/wiki/List_of_Wikipedias
- 这将易于访问 - 即,每个组件都是一个开源的、pip可安装的Python库,可配置但提供良好的默认性能,维基百科可以通过PySpark UDFs在我们的集群内部使用,而外部组织/研究人员可以将它们纳入其工作流程。
- 状态之间的连接是透明的 - 即,对于任何在单词分词中提取的文本,可以直接将其连接回原始的wikitext或HTML。
功能
- 一次性将文本分词成句子和单词,支持超过300种语言
- 可以使用缩写来提高性能
- 单词分词器在分词期间考虑非空白分隔的语言
- 可以从分词输出中精确重建输入
安装
$ pip install mwtokenizer
基本用法
from mwtokenizer.tokenizer import Tokenizer
# initiate a tokenizer for "en" or English
tokenizer = Tokenizer(language_code = "en")
sample_text = '''Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t The address is written by Bohr Jr. here!'''
print(list(tokenizer.sentence_tokenize(sample_text, use_abbreviation=True)))
'''
[output] ["Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t ", 'The address is written by Bohr Jr. here!']
'''
print(list(tokenizer.word_tokenize(text=sample_text, use_abbreviation=True)))
'''
[output] ['Have', ' ', 'Moly', ' ', 'and', ' ', 'Co.', ' ', 'made', ' ', 'it', ' ', 'to', ' ', 'the', ' ', 'shop', ' ', 'near', ' ', 'St.', ' ', "Michael's", ' ', 'Church', '??', ' \n\t ', 'The', ' ', 'address', ' ', 'is', ' ', 'written', ' ', 'by', ' ', 'Bohr', ' ', 'Jr.', ' ', 'here', '!']
'''
项目信息
- 许可证
- 仓库
- 问题追踪器
- 贡献指南
- 基准测试
- 资源生成: 缩写词 & 基准测试数据 + Sentencepiece语料库和训练
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪一个,请了解更多关于安装包的信息。
源代码分发
mwtokenizer-0.2.0.tar.gz (6.9 MB 查看哈希值)
构建分发
mwtokenizer-0.2.0-py3-none-any.whl (6.9 MB 查看哈希值)
关闭
mwtokenizer-0.2.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 95c496172e6915814edbed261bc64829b8661622fcae2947e530b63aad7bc4ec |
|
MD5 | 781a3a64665b5c360ac588736c2feeae |
|
BLAKE2b-256 | 0d713097b66d99807c97babcaf2db08abbcee3157c00e7f76337565431c48e5c |
关闭
mwtokenizer-0.2.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 84c87ea1968761fa7ad2d774d87bdbf440abba9a56c5e972710b4b504ad1f1b9 |
|
MD5 | 02a3beba69e796719d424cbf313b4722 |
|
BLAKE2b-256 | 25292aad1f38a7b70d7291c716e17958e43ab17416cd041910a1dbfa15a82773 |