跳转到主要内容

访问Unicode字符数据库(UCD)

项目描述

Unicode错综复杂

此模块提供对所有Unicode字符的属性访问,来自Unicode字符数据库(UCD)。此模块是Python标准库unicodedata的替代品。Unicode错综复杂与标准库相比提供四个主要优势

  • 使用Unicode数据库的最新版本。
  • 添加了人类可读的类名(属性值别名)。
  • 扩展了属性以利用数据库的更多潜力。
  • UCD版本与Python版本无关(Python 3.6有UCD 9.0,3.7有UCD 11.0.0,3.8有12.0.1,3.9有13.0.0)

注意,Python 3添加了unicode支持,但这与UCD不同。Unicode支持处理存储和操作unicode字符,而此包旨在提供特定字符的属性。

示例

unicodedata中默认对$的查找

属性
名称 货币符号
类别(简短) Sc
双向(简短) ET
组合 0
镜像 0
东亚宽度(简短) Na
分解

此包提供的额外信息

属性
类别别名(长) Currency_Symbol
双向别名(长) European_Terminator
东亚宽度别名(长) Narrow
脚本(长) Common
脚本(简短) Zyyy
区块(长) Basic_Latin
区块(简短) ASCII
PropList Pattern_Syntax
大写字母
小写字母
标题大小写字符

属性比较

属性 乱码的Unicode unicodedata
名称
十进制
数字
数值
组合 ☑ + 别名
镜像
分解
类别 ☑ + 别名
双向 ☑ + 别名
东亚宽度 ☑ + 别名
脚本 ☑ + 别名 -
☑ + 别名 -
年龄 ☑ + 别名 -
二进制属性值 -
版本 14.0.0 (最新版本) 12.0.1

表1:属性存在用☑表示(Unicode字符'对钩'(U+2611))。

用法

import tangled_up_in_unicode as unicodedata

可以通过pip安装此包

pip install tangled-up-in-unicode

性能

该模块是用Python编写的。它可以与Cython一起编译,以获得与本地库相当的性能。

不支持的功能

unicodedata中的某些功能不受支持。

功能 乱码的Unicode unicodedata
查找 -
规范化 -
ucd_3_2_0 -

致谢

尽可能使用原始模块的代码和文档。此存储库是Dylan性能分析项目的一部分。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码发行版

tangled_up_in_unicode-0.2.0.tar.gz (4.6 MB 查看哈希值)

上传时间 源代码

构建发行版

tangled_up_in_unicode-0.2.0-py3-none-any.whl (4.7 MB 查看哈希值)

上传时间 Python 3

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页