跳转到主要内容

维基百科分词工具

项目描述

维基NLP工具

Python包,用于执行语言无关的分词。

愿景

  • 研究人员可以从维基百科文章(wikitext或HTML)开始,去除语法以仅保留纯文本段落,然后将这些句子进一步分词成句子和单词以输入到模型中。
  • 这将是无语言的 - 即,无论维基百科的语言如何,该库都能同样有效地工作。 https://meta.wikimedia.org/wiki/List_of_Wikipedias
  • 这将易于访问 - 即,每个组件都是一个开源的、pip可安装的Python库,可配置但提供良好的默认性能,维基百科可以通过PySpark UDFs在我们的集群内部使用,而外部组织/研究人员可以将它们纳入其工作流程。
  • 状态之间的连接是透明的 - 即,对于任何在单词分词中提取的文本,可以直接将其连接回原始的wikitext或HTML。

功能

  • 一次性将文本分词成句子和单词,支持超过300种语言
  • 可以使用缩写来提高性能
  • 单词分词器在分词期间考虑非空白分隔的语言
  • 可以从分词输出中精确重建输入

安装

$ pip install mwtokenizer

基本用法

from mwtokenizer.tokenizer import Tokenizer
# initiate a tokenizer for "en" or English
tokenizer = Tokenizer(language_code = "en")
sample_text =  '''Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t The address is written by Bohr Jr.   here!'''
print(list(tokenizer.sentence_tokenize(sample_text, use_abbreviation=True)))
'''
[output] ["Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t ", 'The address is written by Bohr Jr.   here!']
'''
print(list(tokenizer.word_tokenize(text=sample_text, use_abbreviation=True)))
'''
[output] ['Have', ' ', 'Moly', ' ', 'and', ' ', 'Co.', ' ', 'made', ' ', 'it', ' ', 'to', ' ', 'the', ' ', 'shop', ' ', 'near', ' ', 'St.', ' ', "Michael's", ' ', 'Church', '??', ' \n\t ', 'The', ' ', 'address', ' ', 'is', ' ', 'written', ' ', 'by', ' ', 'Bohr', ' ', 'Jr.', '   ', 'here', '!']
'''

项目信息

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪一个,请了解更多关于安装包的信息。

源代码分发

mwtokenizer-0.2.0.tar.gz (6.9 MB 查看哈希值)

上传时间 源代码

构建分发

mwtokenizer-0.2.0-py3-none-any.whl (6.9 MB 查看哈希值)

上传时间 Python 3

由以下支持