icu-tokenizer · PyPI · Python 包索引

基于ICU的通用语言分词器

这些详情尚未由PyPI验证

项目链接

主页

项目描述

ICU-tokenizer 是一个使用国际组件Unicode进行通用语言规范化和分词的Python包。

安装
用法（Python）

安装

见 ./INSTALL.md

用法（Python）

句子分隔符

# To split a paragraph into multiple sentences
>>> from icu_tokenizer import SentSplitter
>>> splitter = SentSplitter('zh')

>>> paragraph = """
美国最高法院（英语：Supreme Court of the United States），一般是指美国联邦最高法院，是美国最高级别的联邦法院，为美国三权继总统、国会后最为重要的一环。根据1789年《美国宪法第三条》的规定，最高法院对所有联邦法院、州法院和涉及联邦法律问题的诉讼案件具有最终（并且在很大程度上是有斟酌决定权的）上诉管辖权，以及对小范围案件的具有初审管辖权。在美国的法律制度中，最高法院通常是包括《美国宪法》在内的联邦法律的最终解释者，但仅在具有管辖权的案件范围内。法院不享有判定政治问题的权力；政治问题的执法机关是行政机关，而不是政府的司法部门。
"""
>>> splitter.split(paragraph)
[
    '美国最高法院（英语：Supreme Court of the United States），一般是指美国联邦最高法院，是美国最高级别的联邦法院，为美国三权继总统、国会后最为重要的一环。',
    '根据1789年《美国宪法第三条》的规定，最高法院对所有联邦法院、州法院和涉及联邦法律问题的诉讼案件具有最终（并且在很大程度上是有斟酌决定权的）上诉管辖权，以及对小范围案件的具有初审管辖权。',
    '在美国的法律制度中，最高法院通常是包括《美国宪法》在内的联邦法律的最终解释者，但仅在具有管辖权的案件范围内。',
    '法院不享有判定政治问题的权力；政治问题的执法机关是行政机关，而不是政府的司法部门。'
]

规范器

# To normalize text
>>> from icu_tokenizer import Normalizer
>>> normalizer = Normalizer(lang='en', norm_puncts=True)

>>> text = "𝑻𝒉𝒆 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒔 𝒚𝒐𝒖 𝒐𝒓𝒅𝒆𝒓𝒆𝒅 𝒘𝒊𝒍𝒍 𝒃𝒆 𝒔𝒉𝒊𝒑𝒑𝒆𝒅 𝒅𝒊𝒓𝒆𝒄𝒕𝒍𝒚 𝒇𝒓𝒐𝒎 𝑲𝒐𝒓𝒆𝒂."
>>> normalizer.normalize(text)
"The products you ordered will be shipped directly from Korea."

>>> text = "【】（）"
>>> normalizer.normalize(text)
"[]()"

分词器

>>> from icu_tokenizer import Tokenizer
>>> tokenizer = Tokenizer(lang='th')

>>> text = "ภาษาไทยเป็นภาษาที่มีระดับเสียงของคำแน่นอนหรือวรรณยุกต์เช่นเดียวกับภาษาจีน และออกเสียงแยกคำต่อคำ"
>>> tokenizer.tokenize(text)
['ภาษา', 'ไทย', 'เป็น', 'ภาษา', 'ที่', 'มี', 'ระดับ', 'เสียง', 'ของ', 'คำ', 'แน่นอน', 'หรือ', 'วรรณยุกต์', 'เช่น', 'เดียว', 'กับ', 'ภาษา', 'จีน', 'และ', 'ออก', 'เสียง', 'แยก', 'คำ', 'ต่อ', 'คำ']

项目详情

这些详情尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

此版本

0.0.1

2020年6月18日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

icu_tokenizer-0.0.1.tar.gz (11.2 kB 查看哈希值)

上传时间 2020年6月18日 源

icu_tokenizer-0.0.1.tar.gz的哈希值

icu_tokenizer-0.0.1.tar.gz的哈希值
算法	哈希摘要
SHA256	`0430f5191697904168769938fe3533ddd12e8afd5d84d43e852e9aee4a8b2447`
MD5	`ae6f7955f673c7313e67fe205fdeba39`
BLAKE2b-256	`2636d4fdf94a2b58135d4df4b9c12c9602e18a6e1f0267e60802c3bf455e530d`

icu-tokenizer 0.0.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类

项目描述

安装

用法（Python）

句子分隔符

规范器

分词器

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类

发布历史发布通知 | RSS源

下载文件

源分布

icu-tokenizer 0.0.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类

项目描述

安装

用法（Python）

句子分隔符

规范器

分词器

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类

发布历史 发布通知 | RSS源

下载文件

源分布

发布历史发布通知 | RSS源