Python接口,用于访问ruscorpora.ru上的免费语料库子集
项目描述
此软件包提供Python接口,用于访问http://ruscorpora.ru上可用的免费语料库子集。
安装
pip install ruscorpora-tools
使用
语料库下载
从http://www.ruscorpora.ru/corpora-usage.html下载并解压缩包含XML文件的存档
语料库阅读
ruscorpora.parse_xml函数解析单个XML文件,并返回一个句子迭代器;每个句子是一个ruscorpora.Token实例的列表,带有ruscorpora.Annotation实例的列表。
ruscorpora.simplify通过删除模糊的注释、合并拆分的标记(及其注释)以及删除重音信息来简化ruscorpora.parse_xml的结果。
>>> import ruscorpora as rnc >>> for sent in rnc.simplify(rnc.parse('fiction.xml')): ... print(sent)
开发
开发在github和bitbucket上进行
问题跟踪器在github上:https://github.com/kmike/ruscorpora-tools/issues
请随意提交想法、错误、拉取请求(git 或 hg)或常规补丁。
运行测试
确保已安装并运行tox,从源代码检出处运行。
$ tox
测试应在python 2.6..3.3 和 pypy > 1.8 下通过。
项目详情
关闭
ruscorpora-tools-0.3.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 50b6c5845e1b7fba7ca71a7ba85376a5b63b5c413ae231434ae2fb5ec8d11936 |
|
MD5 | 8480be6c21f3b25d594fec11ea31f58f |
|
BLAKE2b-256 | 3422560bfdc4947453075b72b6deeb81357ad6812f5c0e5818c2c10e928fd6f8 |