词语歧义消除库
项目描述
此仓库包含与Sense frequencies项目相关的脚本和实验,以及用于俄语词语歧义消除的rlwsd
Python包。
rlwsd包
此包可以对《俄语活动词典》中描述的俄语名词进行词语歧义消除(目前,仅出版了包含字母“A” - “Г”的第一卷)。
安装
当前该包只能在CPython 3.4+上运行。使用pip安装
pip3 install rlwsd
该包需要一些不在PyPI上托管且必须单独下载的模型(总大小约2.3 Gb)
python3 -m rlwsd.download
即使模型已存在,也会重新下载。如果遇到问题(下载未完成等),您可以从rlwsd.download.MODELS_URL手动下载模型,并将它们提取到rlwsd
(包)文件夹中的models
文件夹。
使用方法
大部分功能由模型类提供。每个单词的模型必须单独加载
>>> import rlwsd >>> model = rlwsd.SphericalModel.load('альбом') >>> model.senses {'1': {'meaning': 'Вещь в виде большой тетради ...', 'name': 'альбом 1'}, '2': {'meaning': 'Книга тематически связанных изобразительных материалов ...', 'name': 'альбом 2.1'}, '3': {'meaning': 'Собрание музыкальных произведений ...', 'name': 'альбом 2.2'}} >>> model.disambiguate('она задумчиво листала', 'альбом', 'с фотографиями') '2'
您也可以获取所有带模型的单词列表
>>> import rlwsd >>> rlwsd.list_words() ['абрикос', 'абсурд', 'авангард', ... 'гусь', 'гуща']
内部使用大型word2vec模型。默认情况下,它只在第一次调用.disambiguate方法时加载一次,这需要花费可观的的时间。可以通过运行w2v-server命令来选择在单独的进程中加载word2vec模型,该命令启动一个服务器,并通过设置任何非空值的环境变量W2VSRV来导出。
# in the first terminal window $ w2v-server running... # in the second terminal window $ export W2VSRV=yes $ python
这样,您可以保持w2v-server运行,从而在word2vec模型重新加载时节省时间。
许可协议
许可证是MIT
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
rlwsd-0.1.2.tar.gz (11.0 kB 查看哈希)
构建分布
rlwsd-0.1.2-py2.py3-none-any.whl (13.1 kB 查看哈希)
关闭
rlwsd-0.1.2.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 76eac557e678aa61acf43de84d88f0223c297ae6dbffedeb8c624fe4f121aa32 |
|
MD5 | 540d48dd07cd2a4fab7404b6c5dd8449 |
|
BLAKE2b-256 | 22d9c91f751c475507d8cbb0061ad405af972cfe6205e03964693b1718e2e427 |
关闭
rlwsd-0.1.2-py2.py3-none-any.whl的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2e7687f14b75874da5b7c5241ef80e55aee1c1e9d68c78bcd362c61bcbfec8fb |
|
MD5 | f0aa02f5cd29b576f81c6ea3e0c1e41f |
|
BLAKE2b-256 | cee1c328e11f3849ab66141d5758451ad8ca00db080fa055cbb597e02d6d1797 |