一个用于帮助避免在使用Unicode处理语言数据的陷阱的Python包。

这些详情未经过PyPI验证

项目链接

主页

项目描述

Multicode：处理转写中Unicode的杂项函数

一般信息

此存储库提供代码和数据，以规范化数据集，避免在创建语言数据时Unicode的陷阱，并在语言环境中处理它时推断有关数字数据的一般信息。

一个主要问题是语音转写的规范化。Unicode中存在许多相似字符，语言学家在使用时并不知道它们并非他们最初想要写的。例如，用于转录齿龈音擦音的字符在Unicode中有三个候选字符，看起来非常相似：ʃ ∫ ꭍ，尽管只有第一个字符是写语音转写时应使用的字符。我们的目标是提供方法来检测和规范化由于转录语言时Unicode字符的混淆而产生的那些情况。

其他情况包括特定的书写系统，如CJK系统，我们希望提供更快速处理这些系统的服务。这些情况包括通过命名部分来检测非常罕见字符的Unicode码点的可能性，以及简单的Python函数，允许确定给定字符是否是汉字。

命令行界面

安装此包将同时安装multicode命令。

数据规范化

此包的主要目的是数据规范化，即用规范字符替换字符串中的相似字符。这可以通过使用recode子命令来完成，可以通过传递字符串作为参数

$ multicode recode "ʃ ∫ ꭍ"
ʃ ʃ ʃ

或使用管道，即让recode从stdin读取

$ echo "ʃ ∫ ꭍ" | multicode recode 
ʃ ʃ ʃ

存储库结构

我们的存储库包含数据和代码。数据以自定义CSV方言表示，即制表符分隔，其中|作为字段内容的可选二级分隔符。Unicode字符可以表示为UTF-8编码的字符串，或使用如U+0020这样的表示法。

项目详情

这些详情未经过PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

此版本

0.2.1

2021年8月7日

0.2.0

2018年5月25日

0.1.1

2017年6月23日

0.1.0

2017年6月23日

下载文件

下载适用于您平台文件的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分布

multicode-0.2.1.tar.gz (148.6 kB 查看哈希值)

上传时间 2021年8月7日 源

构建分布

multicode-0.2.1-py2.py3-none-any.whl (149.4 kB 查看哈希值)

上传时间 2021年8月7日 Python 2 Python 3

multicode-0.2.1.tar.gz的哈希值

multicode-0.2.1.tar.gz的哈希值
算法	哈希摘要
SHA256	`1154b803d54668a6d5b3ddd6cd3d87e7bc7f87f116ac9765d6dd8f26be7fddfb`
MD5	`13149e6ea2b87648e22a537c62ff8d5b`
BLAKE2b-256	`76dd8240a32c108e2f6ee2083e3826679e0cee23e6446ab3eba014f89cae2a4d`

multicode-0.2.1-py2.py3-none-any.whl的哈希值

multicode-0.2.1-py2.py3-none-any.whl的哈希值
算法	哈希摘要
SHA256	`82698bdfa14b8b50bf9fd4a0ff85bccac28e8132952eab1f40db990e57021f0a`
MD5	`f1858314f2c1558bce2519ceb9c5f102`
BLAKE2b-256	`ab86d1fa671d84f0fb3464893935419cf8e0672be8cf57551ad0a8189fb3b6d0`

multicode 0.2.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

Multicode：处理转写中Unicode的杂项函数

一般信息

命令行界面

数据规范化

存储库结构

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

构建分布

multicode 0.2.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

Multicode：处理转写中Unicode的杂项函数

一般信息

命令行界面

数据规范化

存储库结构

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

构建分布

发布历史发布通知 | RSS源