俄语多义词的标记语境
项目描述
从RuTenTen和RNC中采样的语境。意义定义来自Active Dictionary。一些词有两个注释者。大多数词的上下文数量为100,7个词为500。
注释者(词)
Анастасия Лопухина (47)
Константин Лопухин (11)
Александра Удальцова (2)
Анастасия К. (2)
Анна Кот (2)
Анна Татаренко (2)
Борис Иомдин (2)
Иван Самойленко (1)
上下文存储在rl_wsd_labeled/
rl_wsd_labeled ├── adjectives │ └── RuTenTen ├── nouns │ ├── RNC │ └── RuTenTen └── verbs └── RuTenTen
提供了一个Python接口。首先安装包
pip install rl_wsd_labeled
然后为了获取标记的上下文
>>> import rl_wsd_labeled >>> f = rl_wsd_labeled.contexts_filename('nouns', 'RuTenTen', 'горшок') >>> rl_wsd_labeled.get_contexts(f) ({'1': 'Округлый глиняный сосуд для приготовления пищи (печной горшок)', '2': 'Расширяющийся кверху сосуд с отверстием в дне (цветочный горшок)', '3': 'Ночной горшок'}, [(('телевизор, - ковер, , - музыкальный центр, - стол, - аквариум, - 3 шкафа, - цветы в', ' горшках', ', - мелкие аксессуары.'), '2'), ... (('ибо настанет срок и оно будет разрушено течением времени либо войною, будто старый', ' горшок', ' с вином в трюме торгового корабля, попавшего в бурю и разбившегося о скалы.'), '1') ])
除了意义外,还有两个特殊注释:“0”表示“我不知道/语境不明确/语境无效”,而“max sense + 1”表示“其他意义,未列在给定意义中”。标记为“0”或“其他”的上下文不会返回,除非通过with_skipped=True。如果有多个注释者,注释者意见不一致的上下文也不会包含。有一个函数rl_wsd_labeled.get_agreement,它返回两个注释者都给出了相同具体意义或都跳过意义的比例(因此“0”和“其他”被视为相同)。
项目详情
关闭
rl_wsd_labeled-0.1.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9b1ad7e66e8d3f8cf249220b9284cdc31e235d2e270d1aa152cf218b558ee482 |
|
MD5 | 9faffd21350a5e78f586e139aadb3df4 |
|
BLAKE2b-256 | c19d8637fb2ca2df57cdc2eb344d9db3d59bdfe224c63a05889fde2f99eb86df |