跳转到主要内容

俄语多义词的标记语境

项目描述

从RuTenTen和RNC中采样的语境。意义定义来自Active Dictionary。一些词有两个注释者。大多数词的上下文数量为100,7个词为500。

注释者(词)

  • Анастасия Лопухина (47)

  • Константин Лопухин (11)

  • Александра Удальцова (2)

  • Анастасия К. (2)

  • Анна Кот (2)

  • Анна Татаренко (2)

  • Борис Иомдин (2)

  • Иван Самойленко (1)

上下文存储在rl_wsd_labeled/

rl_wsd_labeled
├── adjectives
│   └── RuTenTen
├── nouns
│   ├── RNC
│   └── RuTenTen
└── verbs
    └── RuTenTen

提供了一个Python接口。首先安装包

pip install rl_wsd_labeled

然后为了获取标记的上下文

>>> import rl_wsd_labeled
>>> f = rl_wsd_labeled.contexts_filename('nouns', 'RuTenTen', 'горшок')
>>> rl_wsd_labeled.get_contexts(f)

({'1': 'Округлый глиняный сосуд для приготовления пищи (печной горшок)',
  '2': 'Расширяющийся кверху сосуд с отверстием в дне (цветочный горшок)',
  '3': 'Ночной горшок'},
 [(('телевизор, - ковер, , - музыкальный центр, - стол, - аквариум, - 3 шкафа, - цветы в',
    ' горшках',
    ', - мелкие аксессуары.'),
  '2'),
  ...
  (('ибо настанет срок и оно будет разрушено течением времени либо войною, будто старый',
    ' горшок',
    ' с вином в трюме торгового корабля, попавшего в бурю и разбившегося о скалы.'),
  '1')
 ])

除了意义外,还有两个特殊注释:“0”表示“我不知道/语境不明确/语境无效”,而“max sense + 1”表示“其他意义,未列在给定意义中”。标记为“0”或“其他”的上下文不会返回,除非通过with_skipped=True。如果有多个注释者,注释者意见不一致的上下文也不会包含。有一个函数rl_wsd_labeled.get_agreement,它返回两个注释者都给出了相同具体意义或都跳过意义的比例(因此“0”和“其他”被视为相同)。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

rl_wsd_labeled-0.1.1.tar.gz (1.3 MB 查看哈希值)

上传时间

支持