跳转到主要内容

Python模块,用于识别文本中的简体或繁体中文。

项目描述

https://badge.fury.io/py/hanzidentifier.svg https://github.com/tsroten/hanzidentifier/actions/workflows/ci.yml/badge.svg

汉字标识符是一个简单的Python模块,用于识别字符串中的简体或繁体字符。

关于

易于使用的辅助函数,用于识别字符串

>>> import hanzidentifier
>>> hanzidentifier.has_chinese('Hello my name is John.')
False
>>> hanzidentifier.is_simplified('John说:你好!')
True
>>> hanzidentifier.is_traditional('John說:你好!')
True
>>> hanzidentifier.has_chinese('Country in Simplified: 国家. Country in Traditional: 國家.')
True

这里是没有辅助函数的

>>> hanzidentifier.identify('Hello my name is Thomas.') is hanzidentifier.UNKNOWN
True
>>> hanzidentifier.identify('Thomas 说:你好!') is hanzidentifier.SIMPLIFIED
True
>>> hanzidentifier.identify('Thomas 說:你好!') is hanzidentifier.TRADITIONAL
True
>>> hanzidentifier.identify('你好!') is hanzidentifier.BOTH
True
>>> hanzidentifier.identify('Country in Simplified: 国家. Country in Traditional: 國家.' ) is hanzidentifier.MIXED
True

hanzidentifier.identify 有五种可能的返回值

  • hanzidentifier.UNKNOWN:字符串中没有识别出的汉字。

  • hanzidentifier.BOTH:字符串与简体和繁体字符系统兼容。

  • hanzidentifier.TRADITIONAL:字符串由繁体字符组成。

  • hanzidentifier.SIMPLIFIED:字符串由简体字符组成。

  • hanzidentifier.MIXED:字符串由仅作为繁体字符识别的字符组成,也包含仅作为简体字符识别的字符。

在确定字符串身份时,未在CC-CEDICT中找到的字符将被忽略。Hanzi Identifier使用由Zhon提供的CC-CEDICT数据来识别汉字。

由于繁体和简体中文字符集重叠,包含简体字的字符串可能会根据字符是否也是繁体字而标识为hanzidentifier.SIMPLIFIEDhanzidentifier.BOTH

入门指南

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

hanzidentifier-1.2.0.tar.gz (3.9 kB 查看散列)

上传时间

构建分发

hanzidentifier-1.2.0-py3-none-any.whl (4.8 kB 查看散列)

上传时间 Python 3

由以下组织支持: