Python包装NLPIR/ICTCLAS中文分词软件。
项目描述
PyNLPIR是NLPIR/ICTCLAS中文分词软件的Python包装。
自由软件:MIT许可证
关于
使用NLPIR,一个最广受推崇的中文文本分析器,轻松进行文本分词
import pynlpir
pynlpir.open()
s = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'
pynlpir.segment(s)
[('欢迎', 'verb'), ('科研', 'noun'), ('人员', 'noun'), ('、', 'punctuation mark'), ('技术', 'noun'), ('工程师', 'noun'), ('、', 'punctuation mark'), ('企事业', 'noun'), ('单位', 'noun'), ('与', 'conjunction'), ('个人', 'noun'), ('参与', 'verb'), ('NLPIR', 'noun'), ('平台', 'noun'), ('的', 'particle'), ('建设', 'verb'), ('工作', 'verb'), ('。', 'punctuation mark')]
功能
常见用例的辅助函数
英语/中文词性映射
支持UTF-8、GBK和BIG5编码的字符串(以及当然,Unicode!)
通过ctypes访问NLPIR的C函数
包含NLPIR副本
在Python 2.7和3上运行
支持macOS、Linux和Windows
入门
变更日志
0.6 (2019-08-20)
为pynlpir.segment().的pos_names添加了'raw'选项。
添加了缺失的词性标签:“mg”,“g”和“j”。
修复了文档中NLPIR项目链接损坏的问题。
0.5.2 (2017-03-24)
修复了在Windows/Python 3上打开PyNLPIR的错误。修复#63。
0.5.1 (2017-03-18)
修复了在Windows/Python 2上打开PyNLPIR的错误。修复#63。
0.5 (2017-03-11)
添加了许可证自动更新器。
移除了包含的许可证文件。
将测试移动到单独的目录。
0.4.6 (2016-08-12)
更新NLPIR许可证。
0.4.5 (2016-07-18)
更新NLPIR许可证。
0.4.4 (2016-04-09)
更新NLPIR许可证。
0.4.3 (2016-03-13)
更新NLPIR许可证。
0.4.2 (2016-02-16)
更新NLPIR许可证。
0.4.1 (2016-01-22)
更新NLPIR许可证。
0.4 (2015-12-21)
更新NLPIR。
添加了OS X支持。
0.3.3 (2015-10-21)
修复了特定输入导致NLPIR冻结的问题。修复#33。
将flake8测试添加到tox和travis-ci。
添加了Python 3.5支持的测试。
在setup.py中使用io.open()。修复#34。
0.3.2 (2015-08-05)
添加了2015-08-05许可证文件。修复#31。
0.3.1 (2015-07-12)
修复了RST渲染错误。
0.3 (2015-07-12)
包含NLPIR版本20150702。修复#25。
添加了编码错误处理方案选项。
添加了新的词识别函数和文档。修复#26。
使~pynlpir.get_key_words能够与多个NLPIR返回值结构协同工作。修复#23。
当词性代码不被识别时返回None。修复#20。
更新了教程中的过时链接。修复#21。
0.2.2 (2015-01-02)
修复了v0.2.1版本发布问题。
0.2.1 (2015-01-02)
打包NLPIR版本20141230。修复#18。
0.2 (2014-12-18)
打包NLPIR版本20140926。恢复了pynlpir.get_key_words功能。修复#11、#14和#15。
更新了新NLPIR版本的词性映射。修复#17。
修复了api.rst中的拼写错误。修复#16。
修复了涉及大写词性代码的错误。修复#10。
将Python 3.4测试添加到tox和travis。
在setup.py和CONTRIBUTING.rst中记录了Python 3.4支持。
修复了与新的NLPIR版本不兼容的双斜杠单元测试。
添加了缺失的逗号。修复#8。
修复了pynlpir.get_key_words中的缩进。
添加了空关键字结果的条件。修复#9。
0.1.3 (2014-06-12)
修复了文档中的拼写错误。修复#4。
在pynlpir.open中添加了license_code参数。修复#6。
打包NLPIR版本20131219并移除版本20140324。修复了NLPIR过期许可证问题。修复#5。
修复了输入中的双斜杠错误。修复#7。
0.1.2 (2014-05-01)
将版本信息添加到__init__.py。
添加了Travis CI配置信息。
重排了README.rst。
添加了关于贡献的文档。
修复了#2。修复了空格分隔的文本分割问题。
修复了#3。修复了_encode()/_decode默认编码错误。
0.1.1 (2014-04-07)
修复了包数据安装问题。
0.1.0 (2014-04-07)
初始发布。
项目详情
下载文件
下载适合您平台文件的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
构建分布版
PyNLPIR-0.6.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f4e8271658e1aefc47128d3fdf64b78bcfce359ce30f9bc7c188542532e23cb0 |
|
MD5 | 0eb3b27534cd9466f231a120df911d9a |
|
BLAKE2b-256 | 2ad7474be875809ea2a75c1e142f03d42f907aae84f24bc72bb752337be63053 |
PyNLPIR-0.6.0-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 832bb9c22383fbd7508bccf5889aff58b7ab04fd77067a0a36d7102a7502b60b |
|
MD5 | ce1816640ac41d6a9ab3098b28d7b707 |
|
BLAKE2b-256 | 7c6679d353119143f92fdf80aea0e8b5b8289baf60708a3202fc7a4d3a530d0e |