跳转到主要内容

一个用于帮助避免在使用Unicode处理语言数据的陷阱的Python包。

项目描述

Multicode:处理转写中Unicode的杂项函数

Build Status PyPI

一般信息

此存储库提供代码和数据,以规范化数据集,避免在创建语言数据时Unicode的陷阱,并在语言环境中处理它时推断有关数字数据的一般信息。

一个主要问题是语音转写的规范化。Unicode中存在许多相似字符,语言学家在使用时并不知道它们并非他们最初想要写的。例如,用于转录齿龈音擦音的字符在Unicode中有三个候选字符,看起来非常相似:ʃ ∫ ꭍ,尽管只有第一个字符是写语音转写时应使用的字符。我们的目标是提供方法来检测和规范化由于转录语言时Unicode字符的混淆而产生的那些情况。

其他情况包括特定的书写系统,如CJK系统,我们希望提供更快速处理这些系统的服务。这些情况包括通过命名部分来检测非常罕见字符的Unicode码点的可能性,以及简单的Python函数,允许确定给定字符是否是汉字。

命令行界面

安装此包将同时安装multicode命令。

数据规范化

此包的主要目的是数据规范化,即用规范字符替换字符串中的相似字符。这可以通过使用recode子命令来完成,可以通过传递字符串作为参数

$ multicode recode "ʃ ∫ ꭍ"
ʃ ʃ ʃ

或使用管道,即让recode从stdin读取

$ echo "ʃ ∫ ꭍ" | multicode recode 
ʃ ʃ ʃ

存储库结构

我们的存储库包含数据和代码。数据以自定义CSV方言表示,即制表符分隔,其中|作为字段内容的可选二级分隔符。Unicode字符可以表示为UTF-8编码的字符串,或使用如U+0020这样的表示法。

项目详情


下载文件

下载适用于您平台文件的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

multicode-0.2.1.tar.gz (148.6 kB 查看哈希值)

上传时间

构建分布

multicode-0.2.1-py2.py3-none-any.whl (149.4 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面