跳转到主要内容

俄语标记集转换库

项目描述

https://img.shields.io/pypi/v/russian-tagsets.svg https://img.shields.io/pypi/l/russian-tagsets.svg https://img.shields.io/travis/kmike/russian-tagsets.svg

russian-tagsets - 用于在俄语单词的语法信息标记的不同格式之间进行转换的库。许可证 - MIT。

目前支持(以不同程度的准确性)以下格式之间的转换

想法是这样的:为每个格式在库中定义几个函数,它们将标记转换为其他格式;如果没有明确定义某种转换,russian-tagsets 将尝试构建一系列转换,以获得所需的结果。

安装

pip安装俄语标记集

使用

“自动”模式(库尝试找到转换路径)

>>> from russian_tagsets import converters
>>> to_aot = converters.converter('opencorpora-int', 'aot')
>>> to_aot("NOUN,anim,masc plur,nomn")
С,од,мр,мн,им

直接支持格式

>>> converters.get_supported()
[('positional', 'aot'),
 ('aot', 'positional'),
 ('aot', 'dialog2010'),
 ('dialog2010', 'aot'),
 ('opencorpora-int', 'opencorpora-ext'),
 ('opencorpora-int', 'ruscorpora'),
 ('opencorpora-int', 'ud14'),
 ('opencorpora-int', 'ud20'),
 ('opencorpora-int', 'dialog2017'),
 ('opencorpora-ext', 'opencorpora-int'),
 ('opencorpora-ext', 'aot')]

“手动”模式(更快,仅直接转换)

>>> import russian_tagsets
>>> russian_tagsets.aot.to_positional(u"С,од,мр,мн,им")
Tag("NNMAP1-------A--")

开发

要运行测试,请在仓库目录下执行

tox

变更

0.6 (2017-06-18)

  • OpenCorpora -> Universal Dependencies 转换支持(UD 1.4、UD 2.0、Dialog 2017 标签集)。

  • convert 函数接受可选的 word 参数 - 转换规则现在可能取决于单词本身,而不仅仅是其标签;

  • 不再支持 Python 3.2、3.3 和 2.6;

  • 打包改进。

0.5.2 (2014-08-19)

  • 处理 OpenCorpora -> RusCorpora 转换中的“abbr”语素。

0.5.1 (2014-04-23)

  • 添加了对 Init OpenCorpora 语素的支持。

0.5 (2014-04-22)

  • 添加了对 OpenCorpora -> RusCorpora 转换规则中的首字母缩写的支持;

  • 代码小量清理。

0.4 (2014-03-14)

  • 改进了 OpenCorpora -> RusCorpora 规则;

  • 在 OpenCorpora 规则中添加了 Anph 语素。

0.3.1 (2013-04-12)

  • 改进了 OpenCorpora -> RusCorpora 规则。

0.3 (2013-03-21)

  • 改进了 OpenCorpora -> RusCorpora 规则。

0.2 (2013-02-07)

  • OpenCorpora -> RusCorpora 转换;

  • 编写转换例程的 DSL。

0.1 (2012-10-07)

初始版本

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

russian-tagsets-0.6.tar.gz (23.3 kB 查看散列)

上传时间

支持者