跳转到主要内容

词语歧义消除库

项目描述

此仓库包含与Sense frequencies项目相关的脚本和实验,以及用于俄语词语歧义消除的rlwsd Python包。

rlwsd包

此包可以对《俄语活动词典》中描述的俄语名词进行词语歧义消除(目前,仅出版了包含字母“A” - “Г”的第一卷)。

安装

当前该包只能在CPython 3.4+上运行。使用pip安装

pip3 install rlwsd

该包需要一些不在PyPI上托管且必须单独下载的模型(总大小约2.3 Gb)

python3 -m rlwsd.download

即使模型已存在,也会重新下载。如果遇到问题(下载未完成等),您可以从rlwsd.download.MODELS_URL手动下载模型,并将它们提取到rlwsd(包)文件夹中的models文件夹。

使用方法

大部分功能由模型类提供。每个单词的模型必须单独加载

>>> import rlwsd
>>> model = rlwsd.SphericalModel.load('альбом')
>>> model.senses
{'1': {'meaning': 'Вещь в виде большой тетради ...',
       'name': 'альбом 1'},
 '2': {'meaning': 'Книга тематически связанных изобразительных материалов ...',
       'name': 'альбом 2.1'},
 '3': {'meaning': 'Собрание музыкальных произведений ...',
       'name': 'альбом 2.2'}}
>>> model.disambiguate('она задумчиво листала', 'альбом', 'с фотографиями')
'2'

您也可以获取所有带模型的单词列表

>>> import rlwsd
>>> rlwsd.list_words()
['абрикос',
 'абсурд',
 'авангард',
 ...
 'гусь',
 'гуща']

内部使用大型word2vec模型。默认情况下,它只在第一次调用.disambiguate方法时加载一次,这需要花费可观的的时间。可以通过运行w2v-server命令来选择在单独的进程中加载word2vec模型,该命令启动一个服务器,并通过设置任何非空值的环境变量W2VSRV来导出。

# in the first terminal window
$ w2v-server
running...
# in the second terminal window
$ export W2VSRV=yes
$ python

这样,您可以保持w2v-server运行,从而在word2vec模型重新加载时节省时间。

许可协议

许可证是MIT

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

rlwsd-0.1.2.tar.gz (11.0 kB 查看哈希)

上传时间

构建分布

rlwsd-0.1.2-py2.py3-none-any.whl (13.1 kB 查看哈希)

上传时间 Python 2 Python 3

由以下组织支持