生物医学概念和实体的同义词分布式数据库。
项目描述
Biosynonyms
生物医学实体和概念的分布式同义词数据库。这个资源旨在补充本体、数据库和其他提供同义词的控制词汇。它采用宽松的许可证(CC0),因此可以轻松采用/贡献给上游资源。
获取数据的方法
import biosynonyms
# Uses an internal data structure
positive_synonyms = biosynonyms.get_positive_synonyms()
negative_synonyms = biosynonyms.get_negative_synonyms()
# Get ready for use in NER with Gilda, only using positive synonyms
gilda_terms = biosynonyms.get_gilda_terms()
同义词
数据也可以通过TSV直接访问,这样任何人都可以从任何编程语言中消费它们。
positives.tsv
具有以下列
text
同义词文本本身curie
生物医学实体或概念的紧凑统一资源标识符(CURIE),使用生物注册标准化name
概念的标准名称scope
匹配类型,以OBO in OWL(oio)控制词汇中的CURIE编写,例如oboInOwl:hasExactSynonym
oboInOwl:hasNarrowSynonym
oboInOwl:hasBroadSynonym
oboInOwl:hasRelatedSynonym
- oboInOwl:hasSynonym(如果范围未知,请使用此选项)
type
同义词属性类型,以OBO Metadata Ontology(omo)控制词汇中的CURIE编写,例如OMO:0003000
(缩写)OMO:0003001
(同义词,含义不明确)OMO:0003002
(同义词,疑义)OMO:0003003
(非专业人士的同义词)OMO:0003004
(复数形式)- ...
参考文献
是对应使用给定同义词的出版物(理想情况下使用来自语义空间的强行动标识符,如pubmed
,pmc
,doi
)的逗号分隔的 CURIE 列表贡献者
贡献者的 ORCID 标识符
以下是一些同义词表中的行的示例(带有链接 CURIE)
文本 | curie | 范围 | 参考文献 | 贡献者 |
---|---|---|---|---|
PI(3,4,5)P3 | CHEBI:16618 | oio:hasExactSynonym | pubmed:29623928,pubmed:20817957 | 0000-0003-4423-4370 |
磷脂酰肌醇(3,4,5)P3 | CHEBI:16618 | oio:hasExactSynonym | pubmed:29695532 | 0000-0003-4423-4370 |
不正确的同义词
negatives.tsv
包含以下列,用于描述非同义词的文本字符串的非平凡示例。本文档不解决与基于上下文消歧义相同的问题,而是帮助描述如不正确的子字符串匹配等问题
文本
非同义词文本本身curie
一个生物医学实体或概念的紧凑统一资源标识符(CURIE),该标识符与以下文本不匹配,并使用 Bioregistry 标准化参考文献
与positives.tsv
相同,说明了出现此字符串的文档贡献者
贡献者的 ORCID 标识符
以下是不正确同义词表中的行的示例(带有链接 CURIE)
文本 | curie | 参考文献 | 贡献者 |
---|---|---|---|
PI(3,4,5)P3 | hgnc:22979 | pubmed:29623928,pubmed:20817957 | 0000-0003-4423-4370 |
已知限制
很难知道不同词汇之间的确切匹配可以用于去除同义词。目前,这还没有涵盖,但已经存在一些可以采用的局部解决方案。
许可证
所有数据均可在 CC0 许可证下获取。所有代码均在 MIT 许可证下可用。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。
源代码分发
biosynonyms-0.0.1.tar.gz (17.6 kB 查看哈希值)
构建分发
biosynonyms-0.0.1-py3-none-any.whl (14.9 kB 查看哈希值)