Wordnet接口库
项目描述
一个用于wordnets的Python库
可用词网 | 文档 | 常见问题解答 | 从NLTK迁移 | 路线图
Wn 是一个用于探索词网信息的 Python 库。
安装
使用 pip 从 PyPI 安装
pip install wn
或者使用来自 conda-forge 频道的 conda 安装 (conda-forge/wn-feedstock)
conda install -c conda-forge wn
入门指南
首先,下载一些数据
python -m wn download oewn:2023 # the Open # English WordNet 2023
现在开始探索
>>> import wn
>>> en = wn.Wordnet('oewn:2023') # Create Wordnet object to query
>>> ss = en.synsets('win', pos='v')[0] # Get the first synset for 'win'
>>> ss.definition() # Get the synset's definition
'be the winner in a contest or competition; be victorious'
特性
- 设计为多语言;对任何语言的词网提供一流支持
- 通过 协作互语索引 进行跨语言查询
- 六种 相似度度量
- 用于 探索分类 的函数
- 支持 词形还原(英语的 Morphy 内置)和 Unicode 规范化
- 完全支持 WN-LMF 1.1 格式,包括单词发音和词典扩展
- 基于 SQL 的后端提供了非常快的启动速度,并且在许多类型的查询上提高了性能
可用词网
任何 WN-LMF 格式的词网都可以从本地文件或远程 URL 添加到 Wn 的数据库中,但 Wn 还维护一个索引(见 wn/index.toml),类似于软件包管理器,以帮助发现和下载新的词网。以下列出了索引中的项目。
英语词网
有几个英语词网可供使用。通常建议使用最新的 Open English Wordnet,但如果您对,例如,实验的可重复性有更严格的兼容性要求,您可能可以尝试基于 WordNet 3.0 的 OMW English Wordnet(与 Princeton WordNet 3.0 和 NLTK 兼容)或 OpenWordnet-EN(与葡萄牙语词网 OpenWordnet-PT 一起使用)。
名称 | 指定符 | 同义词集数量 | 备注 |
---|---|---|---|
Open English WordNet | oewn:2023 oewn:2022 oewn:2021 ewn:2020 ewn:2019 |
120135 120068 120039 120053 117791 |
推荐 |
基于 WordNet 3.0 的 OMW English WordNet | omw-en:1.4 |
117659 | 包含于 omw:1.4 |
基于 WordNet 3.1 的 OMW English WordNet | omw-en31:1.4 |
117791 | |
OpenWordnet-EN | own-en:1.0.0 |
117659 | 包含于 own:1.0.0 |
其他词网和集合
这些是独立的非英语词网和集合。每个集合的词网如下所示。
名称 | 指定符 | 同义词集数量 | 语言 |
---|---|---|---|
Open Multilingual Wordnet | omw:1.4 |
n/a | 多种语言 [mul] |
Open German WordNet | odenet:1.4 odenet:1.3 |
36268 36159 |
德语 [de] |
葡萄牙语和英语的 Open Wordnets | own:1.0.0 |
n/a | 多种语言 [mul] |
KurdNet | kurdnet:1.0 |
2144 | 库尔德语 [ckb] |
Open Multilingual Wordnet (OMW) 集合
Open Multilingual Wordnet 集合(omw:1.4
)安装以下词典(从 这里),这些词典也可以独立下载和安装
名称 | 指定符 | 同义词集数量 | 语言 |
---|---|---|---|
Albanet | omw-sq:1.4 |
4675 | 阿尔巴尼亚语 [sq] |
阿拉伯语词网(AWN v2) | omw-arb:1.4 |
9916 | 阿拉伯语 [arb] |
BulTreeBank Wordnet(BTB-WN) | omw-bg:1.4 |
4959 | 保加利亚语 [bg] |
中国开放式词网 | omw-cmn:1.4 |
42312 | 普通话(简体)[cmn-Hans] |
克罗地亚词网 | omw-hr:1.4 |
23120 | 克罗地亚语 [hr] |
DanNet | omw-da:1.4 |
4476 | 丹麦语 [da] |
FinnWordNet | omw-fi:1.4 |
116763 | 芬兰语 [fi] |
希腊语词网 | omw-el:1.4 |
18049 | 希腊语 [el] |
希伯来语词网 | omw-he:1.4 |
5448 | 希伯来语 [he] |
IceWordNet | omw-is:1.4 |
4951 | 冰岛语 [is] |
意大利语Wordnet | omw-iwn:1.4 |
15563 | 意大利语 [it] |
日语Wordnet | omw-ja:1.4 |
57184 | 日语 [ja] |
立陶宛语WordNet | omw-lt:1.4 |
9462 | 立陶宛语 [lt] |
多语言中心仓库 | omw-ca:1.4 |
45826 | 加泰罗尼亚语 [ca] |
多语言中心仓库 | omw-eu:1.4 |
29413 | 巴斯克语 [eu] |
多语言中心仓库 | omw-gl:1.4 |
19312 | 加利西亚语 [gl] |
多语言中心仓库 | omw-es:1.4 |
38512 | 西班牙语 [es] |
多词Net | omw-it:1.4 |
35001 | 意大利语 [it] |
挪威语Wordnet | omw-nb:1.4 |
4455 | 挪威语(博克马尔语) [nb] |
挪威语Wordnet | omw-nn:1.4 |
3671 | 挪威语(纽挪威语) [nn] |
基于 WordNet 3.0 的 OMW English WordNet | omw-en:1.4 |
117659 | 英语 [en] |
开放荷兰语WordNet | omw-nl:1.4 |
30177 | 荷兰语 [nl] |
OpenWN-PT | omw-pt:1.4 |
43895 | 葡萄牙语 [pt] |
plWordNet | omw-pl:1.4 |
33826 | 波兰语 [pl] |
罗马尼亚语Wordnet | omw-ro:1.4 |
56026 | 罗马尼亚语 [ro] |
斯洛伐克语WordNet | omw-sk:1.4 |
18507 | 斯洛伐克语 [sk] |
sloWNet | omw-sl:1.4 |
42583 | 斯洛文尼亚语 [sl] |
瑞典语(SALDO) | omw-sv:1.4 |
6796 | 瑞典语 [sv] |
泰语Wordnet | omw-th:1.4 |
73350 | 泰语 [th] |
WOLF(自由法语Wordnet) | omw-fr:1.4 |
59091 | 法语 [fr] |
Wordnet Bahasa | omw-id:1.4 |
38085 | 印度尼西亚语 [id] |
Wordnet Bahasa | omw-zsm:1.4 |
36911 | 马来西亚语 [zsm] |
开放Wordnet(OWN)集合
《开放葡萄牙语和英语Wordnet》集合(own:1.0.0
)安装以下词典(从这里)也可以独立下载和安装
名称 | 指定符 | 同义词集数量 | 语言 |
---|---|---|---|
OpenWordnet-PT | own-pt:1.0.0 |
52670 | 葡萄牙语 [pt] |
OpenWordnet-EN | own-en:1.0.0 |
117659 | 英语 [en] |
协作互译索引
虽然不是Wordnet,但协作互译索引(CILI)代表了许多Wordnet的互译骨干。即使没有加载CILI,Wn也能正常工作,但将其添加到数据库中可以提供完整的概念列表、它们的状况(活动、弃用等)以及它们的定义。
名称 | 指定符 | # 概念 |
---|---|---|
协作互译索引 | cili:1.0 |
117659 |
索引的更改
ewn
→ oewn
2021版本的开放英语Wordnet(oewn:2021
)已将其词典ID从ewn
更改为oewn
,因此索引已相应更新。以前的版本仍然可用,分别为ewn:2019
和ewn:2020
。
pwn
→ omw-en
、omw-en31
以前称为普林斯顿WordNet(pwn:3.0
、pwn:3.1
)的Wordnet现在称为基于WordNet 3.0的OMW英语Wordnet(omw-en
)和基于WordNet 3.1的OMW英语Wordnet(omw-en31
)。这更为准确,因为它是由OMW产生的原始Wordnet数据的衍生品,并且也避免了许可或商标问题。
对于OMW词Net,将*wn
更改为omw-*
所有OMW词Net已将其ID方案从...wn
更改为omw-..
,并且版本号不再包含+omw
(例如,bulwn:1.3+omw
现在为omw-bg:1.4
)。
项目详情
下载文件
下载您平台上的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
构建分发
wn-0.9.5.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 9ae62e0e6607f56e63e9eb8360930c8337ecc44e9e0488430aa1fa3fb9c51be4 |
|
MD5 | daa7766b0eea598949636ab4d991f9f2 |
|
BLAKE2b-256 | a705278cb587ad052681a8a8092af8c28a8e802397d5c35f530a79cf913c66cf |
wn-0.9.5-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | fa17477bd39bcb8417a11aa8e08c67b9ea72e0c0557cd6f4de26fe9c93e60e39 |
|
MD5 | b1d0c8b476590e93a668a8e27412c9b3 |
|
BLAKE2b-256 | ee27da67032f35515beb1ad22b66e98ea4e3e708a063e5f626b76045808589d8 |