访问Unicode字符数据库(UCD)
项目描述
Unicode错综复杂
此模块提供对所有Unicode字符的属性访问,来自Unicode字符数据库(UCD)。此模块是Python标准库unicodedata
的替代品。Unicode错综复杂
与标准库相比提供四个主要优势
- 使用Unicode数据库的最新版本。
- 添加了人类可读的类名(属性值别名)。
- 扩展了属性以利用数据库的更多潜力。
- UCD版本与Python版本无关(Python 3.6有UCD 9.0,3.7有UCD 11.0.0,3.8有12.0.1,3.9有13.0.0)
注意,Python 3添加了unicode支持,但这与UCD不同。Unicode支持处理存储和操作unicode字符,而此包旨在提供特定字符的属性。
示例
unicodedata
中默认对$
的查找
属性 | 值 |
---|---|
名称 | 货币符号 |
类别(简短) | Sc |
双向(简短) | ET |
组合 | 0 |
镜像 | 0 |
东亚宽度(简短) | Na |
分解 |
此包提供的额外信息
属性 | 值 |
---|---|
类别别名(长) | Currency_Symbol |
双向别名(长) | European_Terminator |
东亚宽度别名(长) | Narrow |
脚本(长) | Common |
脚本(简短) | Zyyy |
区块(长) | Basic_Latin |
区块(简短) | ASCII |
PropList | Pattern_Syntax |
大写字母 | |
小写字母 | |
标题大小写字符 |
属性比较
属性 | 乱码的Unicode |
unicodedata |
---|---|---|
名称 | ☑ | ☑ |
十进制 | ☑ | ☑ |
数字 | ☑ | ☑ |
数值 | ☑ | ☑ |
组合 | ☑ + 别名 | ☑ |
镜像 | ☑ | ☑ |
分解 | ☑ | ☑ |
类别 | ☑ + 别名 | ☑ |
双向 | ☑ + 别名 | ☑ |
东亚宽度 | ☑ + 别名 | ☑ |
脚本 | ☑ + 别名 | - |
块 | ☑ + 别名 | - |
年龄 | ☑ + 别名 | - |
二进制属性值 | ☑ | - |
版本 | 14.0.0 (最新版本) | 12.0.1 |
表1:属性存在用☑表示(Unicode字符'对钩'(U+2611))。
用法
import tangled_up_in_unicode as unicodedata
可以通过pip安装此包
pip install tangled-up-in-unicode
性能
该模块是用Python编写的。它可以与Cython一起编译,以获得与本地库相当的性能。
不支持的功能
unicodedata中的某些功能不受支持。
功能 | 乱码的Unicode |
unicodedata |
---|---|---|
查找 | - | ☑ |
规范化 | - | ☑ |
ucd_3_2_0 | - | ☑ |
致谢
尽可能使用原始模块的代码和文档。此存储库是Dylan性能分析项目的一部分。
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码发行版
tangled_up_in_unicode-0.2.0.tar.gz (4.6 MB 查看哈希值)
构建发行版
关闭
tangled_up_in_unicode-0.2.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | de56dbaf32de1b8c65621f97b06b7de21cba18c8e61f3988a426ffe3c40fed36 |
|
MD5 | 46194940f9274a6c031e4bfbb1878f82 |
|
BLAKE2b-256 | 1559f6ae6399c25b61719ebcca245d9be0805ce0767fd12879b75f6d0b04331e |
关闭
tangled_up_in_unicode-0.2.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 154be12605b1687a17133aa741ae951cf9ee531c48a0c19f98d83ec5cb3cc7be |
|
MD5 | 67c62c7826674a513fe795164a586a99 |
|
BLAKE2b-256 | dd603651960b74aead282ec1ad819e70bdccf3ee73322d13d4339a6e3f5b7ed3 |