不同命名空间之间生物医学标识符的精心挑选和预测映射
项目描述
Biomappings
Biomappings是一个社区精心挑选和预测的等效性和相关映射的存储库,这些映射是主要来源中不可用的命名生物实体。它也是一个任何人都可以贡献预测映射的精炼或他们自己的新颖映射的地方。最终,我们希望主要资源将集成这些映射并自行分发。
映射存储在一个简单的TSV文件中,如下所示
💾 数据
数据可通过以下四个文件在biopragmatics/biomappings GitHub仓库中获取。
精心挑选 | 描述 | 链接 |
---|---|---|
是 | 人工精心挑选的真实映射 | src/biomappings/resources/mappings.tsv |
是 | 人工编写的非平凡错误映射(即不正确的映射) | src/biomappings/resources/incorrect.tsv |
是 | 已检查但尚未决定的映射 | src/biomappings/resources/unsure.tsv |
无 | 自动预测的映射 | src/biomappings/resources/predictions.tsv |
本存储库中的主要数据和派生数据均在CC0 1.0 通用许可下可用。
预测由scripts/
文件夹中的脚本生成。每个脚本都使用biomappings.resources
模块的实用程序以编程方式与映射文件交互,例如添加预测。
🥒 派生
映射以简单的共享本体映射标准(SSSOM)格式(此处)分发,并可由PURL引用,例如https://w3id.org/biopragmatics/biomappings/sssom/biomappings.sssom.tsv。正映射也可以通过NDEx作为网络访问。
来自OBO Foundry和其他主要来源的等价和相关映射可以通过Zenodo上的Inspector Javert的Xref数据库访问,该数据库在这篇博客文章中进行了描述。
📊 摘要
手动编写的映射和预测映射的摘要统计信息每晚自动生成,并通过GitHub Actions部署到https://biopragmatics.github.io/biomappings的网站上。
🙏 贡献
我们欢迎以拉取请求的形式,通过向https://github.com/biopragmatics/biomappings的Biomappings主存储库提交对任何四个主要TSV文件进行编目。
预测映射可以通过将predictions.tsv
文件中的一行移动到正映射文件(mappings.tsv
)、负映射文件(incorrect.tsv
)或不确切的映射文件(unsure.tsv
)中进行编目。此外,应删除confidence
列,添加具有值manually_reviewed
的type
列,并将source
列从预测脚本的URI更改为您的ORCiD标识符,以CURIE(例如,orcid:0000-0003-1307-2508
)的形式编写。
可以通过在正映射文件(mappings.tsv
)中添加符合前面行格式的完整行来编目新的映射。
尽管Biomappings通常能够使用表示为紧凑URI(CURIE)的任何谓词,但建议使用来自简单知识组织系统(SKOS)的谓词来表示层次关系。用于编目映射的有用谓词有
谓词 | 描述 |
---|---|
skos:exactMatch |
两个术语可以互换使用 |
skos:broadMatch |
对象术语是主题的超类 |
skos:narrowMatch |
对象术语是主题的子类 |
通过GitHub Web界面在线
GitHub提供了一个在浏览器中直接编辑文件的界面。它将为您创建分支并创建拉取请求。登录到GitHub后,点击以下链接之一即可进入编辑界面
请注意,您一次只能编辑一个文件。之后,您可以导航到自己的分支版本库的正确分支(不会是默认分支),然后在网页界面中编辑其他文件。但是,如果您想这样做,那么最好查看以下关于本地贡献的说明。
✍️ 本地通过文本编辑器
- 在 https://github.com/biopragmatics/biomappings 上创建仓库的分支,本地克隆,并创建一个新分支(见下文)
- 编辑一个或多个资源文件(
mappings.tsv
、incorrect.tsv
、unsure.tsv
、predictions.tsv
) - 在您的分支上提交,推送,并创建一个拉取请求返回到上游仓库。
🌐 本地通过网页编辑界面
除了在本地编辑文件外,此仓库还附带了一个基于网页的编辑界面。使用带有 web
选项的代码开发模式安装代码(这将安装 flask
和 flask-bootstrap
)
$ git clone git+https://github.com/biopragmatics/biomappings.git
$ cd biomappings
$ git checkout -b your-branch-name
$ pip install -e .[web]
可以使用以下命令运行网页应用程序
$ biomappings web
您可以通过在浏览器中导航到 http://localhost:5000/ 来访问它。在您进行一些编辑后,网页应用程序会通过“提交和推送”按钮处理与您安装 biomappings
的 git 仓库的交互。
注意 如果您通过 PyPI 安装了 biomappings
,则运行网页编辑界面没有太大意义,因为对于大多数用户来说,在 Python 安装程序的 site-packages
文件夹中找到资源是相当复杂的,并且您无法将其贡献回去。
编辑归因
Biomappings 的编辑者被归因于以下三个地方
⬇️ 安装
可以从 PyPI 使用以下命令安装最新版本
$ pip install biomappings
可以通过以下命令直接从 GitHub 安装最新代码和数据
$ pip install git+https://github.com/biopragmatics/biomappings.git
要开发模式安装并创建新分支,请使用以下命令
$ git clone git+https://github.com/biopragmatics/biomappings.git
$ cd biomappings
$ pip install -e .
💪 使用
biomappings
从中公开了三个主要功能。每个都加载了一个包含每个映射的字典列表。
import biomappings
true_mappings = biomappings.load_mappings()
false_mappings = biomappings.load_false_mappings()
predictions = biomappings.load_predictions()
或者,您可以使用上面提供的 GitHub 上的 TSV 链接,结合您选择的库或编程语言。
数据还可以使用以下函数作为 networkx 图加载
import biomappings
true_graph = biomappings.get_true_graph()
false_graph = biomappings.get_false_graph()
predictions_graph = biomappings.get_predictions_graph()
完整文档可以在 ReadTheDocs 上找到。
👋 归因
⚖️ 许可证
代码根据 MIT 许可证授权。数据根据 CC0 许可证授权。
📖 引用
使用 Biomappings 预测和编辑缺失的生物医学标识符映射
Hoyt, C. T.,Hoyt, A. L.,和 Gyori, B. M. (2022)
生物信息学,btad130。
@article{Hoyt2022,
title = {{Prediction and Curation of Missing Biomedical Identifier Mappings with Biomappings}},
author = {Hoyt, Charles Tapley and Hoyt, Amelia L and Gyori, Benjamin M},
journal = {Bioinformatics},
year = {2023},
month = {03},
issn = {1367-4811},
doi = {10.1093/bioinformatics/btad130},
url = {https://doi.org/10.1093/bioinformatics/btad130},
note = {btad130},
eprint = {https://academic.oup.com/bioinformatics/advance-article-pdf/doi/10.1093/bioinformatics/btad130/49521613/btad130.pdf},
}
🎁 支持
Biomappings 是由 INDRA Lab 开发的,它是 系统药理学实验室 和 哈佛治疗科学项目(HiTS) 的一个部分,位于 哈佛医学院。
💰 资金
生物注册表的开发由 DARPA Young Faculty Award W911NF2010255 资助(PI:Benjamin M. Gyori)。
🍪 Cookiecutter
此软件包是用 @audreyfeldroy 的 cookiecutter 软件包和 @cthoyt 的 cookiecutter-snekpack 模板创建的。
🛠️ 对于开发者
请参阅开发者说明
README的最后一部分是如果您想通过代码贡献来参与其中。
开发安装
要使用开发模式安装,请使用以下命令:
$ git clone git+https://github.com/biopragmatics/biomappings.git
$ cd biomappings
$ pip install -e .
🥼 测试
在克隆仓库并使用 pip install tox
安装 tox
后,可以使用以下命令反复运行 tests/
目录中的单元测试:
$ tox
此外,这些测试会随着每个提交自动在 GitHub Action 中重新运行。
📖 构建文档
可以使用以下方法在本地构建文档:
$ git clone git+https://github.com/biopragmatics/biomappings.git
$ cd biomappings
$ tox -e docs
$ open docs/build/html/index.html
文档会自动安装包以及 setup.cfg
中指定的 docs
额外模块。可以在此处添加 sphinx
插件,如 texext
。另外,还需要将它们添加到 docs/source/conf.py
中的 extensions
列表。
📦 发布版本
在开发模式下安装包并使用 pip install tox
安装 tox
后,创建新版本的命令包含在 tox.ini
中的 finish
环境中。请在 shell 中运行以下命令:
$ tox -e finish
此脚本执行以下操作:
- 使用 Bump2Version 将
setup.cfg
、src/biomappings/version.py
和docs/source/conf.py
中的版本号切换为不带-dev
后缀。 - 使用
build
将代码打包成 tar 存档和 wheel 格式。 - 使用
twine
上传到 PyPI。请确保已配置.pypirc
文件,以避免在此步骤中需要手动输入。 - 推送到 GitHub。您需要创建一个与版本号提升的提交相对应的发布。
- 将版本提升到下一个补丁级别。如果您进行了重大更改并希望通过次要版本提升版本,可以在之后使用
tox -e bumpversion minor
。
项目详情
下载文件
下载适合您平台的自定义文件。如果您不确定选择哪一个,请了解更多关于 安装包 的信息。
源代码分发
构建分发
biomappings-0.3.7.tar.gz 的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6398fc27f4faba686ca75d63e5cc15bab40368e44ed32ab4fb15e28b3c46f32c |
|
MD5 | 5f18fe05bb495e22058021a821b77937 |
|
BLAKE2b-256 | d7511ba54b40221a985f2038df58f57d8176d2dbfa08533c1f854b0e24c19fa2 |
biomappings-0.3.7-py3-none-any.whl 的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a8faa7209a88c50d00fadba9d996300f74ca089b1d98360e6bce760294194c99 |
|
MD5 | a3d1e19f48e366a2bca722a25027ab4b |
|
BLAKE2b-256 | 1d6cafbd770137513b1ca6a36e8d97bf05df773bf2440e81385f18aa16a0b3b2 |