跳转到主要内容

生物医学概念和实体的同义词分布式数据库。

项目描述

Biosynonyms

生物医学实体和概念的分布式同义词数据库。这个资源旨在补充本体、数据库和其他提供同义词的控制词汇。它采用宽松的许可证(CC0),因此可以轻松采用/贡献给上游资源。

获取数据的方法

import biosynonyms

# Uses an internal data structure
positive_synonyms = biosynonyms.get_positive_synonyms()
negative_synonyms = biosynonyms.get_negative_synonyms()

# Get ready for use in NER with Gilda, only using positive synonyms
gilda_terms = biosynonyms.get_gilda_terms()

同义词

数据也可以通过TSV直接访问,这样任何人都可以从任何编程语言中消费它们。

positives.tsv具有以下列

  1. text同义词文本本身
  2. curie生物医学实体或概念的紧凑统一资源标识符(CURIE),使用生物注册标准化
  3. name概念的标准名称
  4. scope匹配类型,以OBO in OWL(oio)控制词汇中的CURIE编写,例如
    • oboInOwl:hasExactSynonym
    • oboInOwl:hasNarrowSynonym
    • oboInOwl:hasBroadSynonym
    • oboInOwl:hasRelatedSynonym
    • oboInOwl:hasSynonym(如果范围未知,请使用此选项)
  5. type同义词属性类型,以OBO Metadata Ontology(omo)控制词汇中的CURIE编写,例如
    • OMO:0003000 (缩写)
    • OMO:0003001 (同义词,含义不明确)
    • OMO:0003002 (同义词,疑义)
    • OMO:0003003 (非专业人士的同义词)
    • OMO:0003004 (复数形式)
    • ...
  6. 参考文献 是对应使用给定同义词的出版物(理想情况下使用来自语义空间的强行动标识符,如 pubmedpmcdoi)的逗号分隔的 CURIE 列表
  7. 贡献者 贡献者的 ORCID 标识符

以下是一些同义词表中的行的示例(带有链接 CURIE)

文本 curie 范围 参考文献 贡献者
PI(3,4,5)P3 CHEBI:16618 oio:hasExactSynonym pubmed:29623928pubmed:20817957 0000-0003-4423-4370
磷脂酰肌醇(3,4,5)P3 CHEBI:16618 oio:hasExactSynonym pubmed:29695532 0000-0003-4423-4370

不正确的同义词

negatives.tsv 包含以下列,用于描述非同义词的文本字符串的非平凡示例。本文档不解决与基于上下文消歧义相同的问题,而是帮助描述如不正确的子字符串匹配等问题

  1. 文本 非同义词文本本身
  2. curie 一个生物医学实体或概念的紧凑统一资源标识符(CURIE),该标识符与以下文本不匹配,并使用 Bioregistry 标准化
  3. 参考文献positives.tsv 相同,说明了出现此字符串的文档
  4. 贡献者 贡献者的 ORCID 标识符

以下是不正确同义词表中的行的示例(带有链接 CURIE)

文本 curie 参考文献 贡献者
PI(3,4,5)P3 hgnc:22979 pubmed:29623928pubmed:20817957 0000-0003-4423-4370

已知限制

很难知道不同词汇之间的确切匹配可以用于去除同义词。目前,这还没有涵盖,但已经存在一些可以采用的局部解决方案。

许可证

所有数据均可在 CC0 许可证下获取。所有代码均在 MIT 许可证下可用。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。

源代码分发

biosynonyms-0.0.1.tar.gz (17.6 kB 查看哈希值

上传时间 源代码

构建分发

biosynonyms-0.0.1-py3-none-any.whl (14.9 kB 查看哈希值

上传时间 Python 3

由以下组织支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面