Unicode辅助工具和搜索实用程序
项目描述
ucnum程序是一个命令行工具,允许您将十进制、八进制、十六进制和二进制数字;Unicode字符和块名称;以及HTML/XHTML字符实体名称和数字相互转换。它可以作为Web作者在线特殊字符参考。
此版本是Gisle Aas的原始unum Perl实用程序(https://www.fourmilab.ch/webtools/unum/)的(盲)Python重新实现。它是用Python编写的,因为它将保持通过Python自己的unicodedata更新而保持最新。它有一些细微的差异
不接受八进制语法077:请使用0o77代替。
字符信息表还包含Unicode块。
正则表达式风味是Python的。
尚未接受HTML转义参数形式(请参阅“待办事项”)。
不支持名称别名(例如,控制字符)。
参数
命令行可以包含以下形式之一的任何数量的I<argument>
- 123
十进制数字。
- 0o371
以“0o”开头的八进制数字。
- 0x1D351
以“0x”开头的十六进制数字。字母可以是大写或小写,但“x”必须小写。
- 0b110101
二进制数字。
- b=block
Unicode字符块与块匹配。块规范可以是正则表达式。例如,“b=greek”列出Unicode中的所有希腊字符块。
- c=char…
打印字符“char…”的Unicode字符代码。如果第一个字符不是十进制数字,则第二个不是等号,“c=”可以省略。
- h=entity
列出所有与实体匹配的HTML/XHTML字符实体,实体可以是正则表达式。匹配不区分大小写,因此“h=alpha”找到“Α”和“α”。
- l=块
列出所有与块匹配的Unicode块及其中的所有字符;“l=goth”列出哥特块及其包含的32个字符。
- n=名称
列出所有名称与名称匹配的Unicode字符,名称可以是正则表达式。例如,“n=telephone”可以找到五个表示电话符号的Unicode字符。
待办事项
以下参数形式尚未接受
- ‘&#number;&#xhexnum;…’
列出与指定的HTML/XHTML字符实体对应的字符,这些实体可以是十进制或十六进制形式。请注意,XHTML实体中的“x”必须是小写。在大多数类Unix操作系统中,您需要引号参数,以便shell不会解释和号、数字符号和分号。
输出
对于数字或字符参数,值以所有输入格式列出,除二进制外。
Octal Decimal Hex HTML Character Block Unicode 0o46 38 0x26 & & Basic Latin AMPERSAND
如果终端字体无法显示正在列出的字符,则“字符”字段将包含在这种情况下显示的默认值。控制字符以Python十六进制转义序列显示。
Unicode块按以下方式列出
Start End Unicode Block 0x2460 - 0x24ff Enclosed Alphanumerics 0x1d400 - 0x1d7ff Mathematical Alphanumeric Symbols 0x1f100 - 0x1f1ff Enclosed Alphanumeric Supplement