俄语标记集转换库
项目描述
russian-tagsets - 用于在俄语单词的语法信息标记的不同格式之间进行转换的库。许可证 - MIT。
目前支持(以不同程度的准确性)以下格式之间的转换
OpenCorpora(包括俄语词典 pymorphy2);
俄语位置标记集(Jirka Hana和Anna Feldman,2010);
НКРЯ;
通用依赖关系(v1.4,v2.0,Dialogue-2017);
想法是这样的:为每个格式在库中定义几个函数,它们将标记转换为其他格式;如果没有明确定义某种转换,russian-tagsets 将尝试构建一系列转换,以获得所需的结果。
安装
pip安装俄语标记集
使用
“自动”模式(库尝试找到转换路径)
>>> from russian_tagsets import converters >>> to_aot = converters.converter('opencorpora-int', 'aot') >>> to_aot("NOUN,anim,masc plur,nomn") С,од,мр,мн,им
直接支持格式
>>> converters.get_supported() [('positional', 'aot'), ('aot', 'positional'), ('aot', 'dialog2010'), ('dialog2010', 'aot'), ('opencorpora-int', 'opencorpora-ext'), ('opencorpora-int', 'ruscorpora'), ('opencorpora-int', 'ud14'), ('opencorpora-int', 'ud20'), ('opencorpora-int', 'dialog2017'), ('opencorpora-ext', 'opencorpora-int'), ('opencorpora-ext', 'aot')]
“手动”模式(更快,仅直接转换)
>>> import russian_tagsets >>> russian_tagsets.aot.to_positional(u"С,од,мр,мн,им") Tag("NNMAP1-------A--")
开发
要运行测试,请在仓库目录下执行
tox
。
变更
0.6 (2017-06-18)
OpenCorpora -> Universal Dependencies 转换支持(UD 1.4、UD 2.0、Dialog 2017 标签集)。
convert 函数接受可选的 word 参数 - 转换规则现在可能取决于单词本身,而不仅仅是其标签;
不再支持 Python 3.2、3.3 和 2.6;
打包改进。
0.5.2 (2014-08-19)
处理 OpenCorpora -> RusCorpora 转换中的“abbr”语素。
0.5.1 (2014-04-23)
添加了对 Init OpenCorpora 语素的支持。
0.5 (2014-04-22)
添加了对 OpenCorpora -> RusCorpora 转换规则中的首字母缩写的支持;
代码小量清理。
0.4 (2014-03-14)
改进了 OpenCorpora -> RusCorpora 规则;
在 OpenCorpora 规则中添加了 Anph 语素。
0.3.1 (2013-04-12)
改进了 OpenCorpora -> RusCorpora 规则。
0.3 (2013-03-21)
改进了 OpenCorpora -> RusCorpora 规则。
0.2 (2013-02-07)
OpenCorpora -> RusCorpora 转换;
编写转换例程的 DSL。
0.1 (2012-10-07)
初始版本