一个用于帮助避免在使用Unicode处理语言数据的陷阱的Python包。
项目描述
Multicode:处理转写中Unicode的杂项函数
一般信息
此存储库提供代码和数据,以规范化数据集,避免在创建语言数据时Unicode的陷阱,并在语言环境中处理它时推断有关数字数据的一般信息。
一个主要问题是语音转写的规范化。Unicode中存在许多相似字符,语言学家在使用时并不知道它们并非他们最初想要写的。例如,用于转录齿龈音擦音的字符在Unicode中有三个候选字符,看起来非常相似:ʃ ∫ ꭍ
,尽管只有第一个字符是写语音转写时应使用的字符。我们的目标是提供方法来检测和规范化由于转录语言时Unicode字符的混淆而产生的那些情况。
其他情况包括特定的书写系统,如CJK系统,我们希望提供更快速处理这些系统的服务。这些情况包括通过命名部分来检测非常罕见字符的Unicode码点的可能性,以及简单的Python函数,允许确定给定字符是否是汉字。
命令行界面
安装此包将同时安装multicode
命令。
数据规范化
此包的主要目的是数据规范化,即用规范字符替换字符串中的相似字符。这可以通过使用recode
子命令来完成,可以通过传递字符串作为参数
$ multicode recode "ʃ ∫ ꭍ"
ʃ ʃ ʃ
或使用管道,即让recode
从stdin读取
$ echo "ʃ ∫ ꭍ" | multicode recode
ʃ ʃ ʃ
存储库结构
我们的存储库包含数据和代码。数据以自定义CSV方言表示,即制表符分隔,其中|
作为字段内容的可选二级分隔符。Unicode字符可以表示为UTF-8编码的字符串,或使用如U+0020
这样的表示法。
项目详情
下载文件
下载适用于您平台文件的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分布
multicode-0.2.1.tar.gz (148.6 kB 查看哈希值)
构建分布
multicode-0.2.1-py2.py3-none-any.whl (149.4 kB 查看哈希值)
关闭
multicode-0.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1154b803d54668a6d5b3ddd6cd3d87e7bc7f87f116ac9765d6dd8f26be7fddfb |
|
MD5 | 13149e6ea2b87648e22a537c62ff8d5b |
|
BLAKE2b-256 | 76dd8240a32c108e2f6ee2083e3826679e0cee23e6446ab3eba014f89cae2a4d |
关闭
multicode-0.2.1-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 82698bdfa14b8b50bf9fd4a0ff85bccac28e8132952eab1f40db990e57021f0a |
|
MD5 | f1858314f2c1558bce2519ceb9c5f102 |
|
BLAKE2b-256 | ab86d1fa671d84f0fb3464893935419cf8e0672be8cf57551ad0a8189fb3b6d0 |