维基百科分词工具

这些详情尚未由PyPI 验证

项目链接

主页

项目描述

维基NLP工具

Python包，用于执行语言无关的分词。

愿景

研究人员可以从维基百科文章（wikitext或HTML）开始，去除语法以仅保留纯文本段落，然后将这些句子进一步分词成句子和单词以输入到模型中。
这将是无语言的 - 即，无论维基百科的语言如何，该库都能同样有效地工作。 https://meta.wikimedia.org/wiki/List_of_Wikipedias
这将易于访问 - 即，每个组件都是一个开源的、pip可安装的Python库，可配置但提供良好的默认性能，维基百科可以通过PySpark UDFs在我们的集群内部使用，而外部组织/研究人员可以将它们纳入其工作流程。
状态之间的连接是透明的 - 即，对于任何在单词分词中提取的文本，可以直接将其连接回原始的wikitext或HTML。

功能

一次性将文本分词成句子和单词，支持超过300种语言
可以使用缩写来提高性能
单词分词器在分词期间考虑非空白分隔的语言
可以从分词输出中精确重建输入

安装

$ pip install mwtokenizer

基本用法

from mwtokenizer.tokenizer import Tokenizer
# initiate a tokenizer for "en" or English
tokenizer = Tokenizer(language_code = "en")
sample_text =  '''Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t The address is written by Bohr Jr.   here!'''
print(list(tokenizer.sentence_tokenize(sample_text, use_abbreviation=True)))
'''
[output] ["Have Moly and Co. made it to the shop near St. Michael's Church?? \n\t ", 'The address is written by Bohr Jr.   here!']
'''
print(list(tokenizer.word_tokenize(text=sample_text, use_abbreviation=True)))
'''
[output] ['Have', ' ', 'Moly', ' ', 'and', ' ', 'Co.', ' ', 'made', ' ', 'it', ' ', 'to', ' ', 'the', ' ', 'shop', ' ', 'near', ' ', 'St.', ' ', "Michael's", ' ', 'Church', '??', ' \n\t ', 'The', ' ', 'address', ' ', 'is', ' ', 'written', ' ', 'by', ' ', 'Bohr', ' ', 'Jr.', '   ', 'here', '!']
'''

项目信息

项目详情

这些详情尚未由PyPI 验证

项目链接

主页

发布历史发布通知 | RSS订阅

本版本

0.2.0

2023年12月22日

0.1.0

2023年12月5日

0.0.2

2023年6月26日

下载文件

下载适合您平台的文件。如果您不确定选择哪一个，请了解更多关于安装包的信息。

源代码分发

mwtokenizer-0.2.0.tar.gz (6.9 MB 查看哈希值)

上传时间 2023年12月22日 源代码

构建分发

mwtokenizer-0.2.0-py3-none-any.whl (6.9 MB 查看哈希值)

上传时间 2023年12月22日 Python 3

mwtokenizer-0.2.0.tar.gz的哈希值

mwtokenizer-0.2.0.tar.gz的哈希值
算法	哈希摘要
SHA256	`95c496172e6915814edbed261bc64829b8661622fcae2947e530b63aad7bc4ec`
MD5	`781a3a64665b5c360ac588736c2feeae`
BLAKE2b-256	`0d713097b66d99807c97babcaf2db08abbcee3157c00e7f76337565431c48e5c`

mwtokenizer-0.2.0-py3-none-any.whl的哈希值

mwtokenizer-0.2.0-py3-none-any.whl的哈希值
算法	哈希摘要
SHA256	`84c87ea1968761fa7ad2d774d87bdbf440abba9a56c5e972710b4b504ad1f1b9`
MD5	`02a3beba69e796719d424cbf313b4722`
BLAKE2b-256	`25292aad1f38a7b70d7291c716e17958e43ab17416cd041910a1dbfa15a82773`

mwtokenizer 0.2.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

维基NLP工具

愿景

功能

安装

基本用法

项目信息

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS订阅

下载文件

源代码分发

构建分发

mwtokenizer 0.2.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

维基NLP工具

愿景

功能

安装

基本用法

项目信息

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS订阅

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS订阅