在生物数据库网络上计算扩散分数
项目描述
简介

DiffuPath 是一种生物网络分析工具,它将来自 DiffuPy 的通用标签传播算法与编码在多种格式中的生物网络(如简单交互格式(SIF)或生物表达语言(BEL))相连接。例如,在论文中提出的应用场景中,我们使用了三个通路数据库(即 KEGG、Reactome 和 WikiPathways)及其从 PathMe 获取的集成网络[1],以分析三个多组学数据集。然而,也可以从 Bio2BEL 生态系统导入其他生物网络[2]。
安装

可以从 PyPI 安装最新稳定代码
$ python3 -m pip install diffupath
可以从 GitHub 的源代码安装最新代码
$ python3 -m pip install git+https://github.com/multipaths/diffupath.git
对于开发者,可以从 GitHub 克隆仓库并在可编辑模式下安装
$ git clone https://github.com/multipaths/diffupath.git
$ cd diffupath
$ python3 -m pip install -e .
需求
diffupath 需要以下库
networkx (>=2.1) pybel (0.13.2) biokeen (0.0.14) click (7.0) tqdm (4.31.1) numpy (1.16.3) scipy (1.2.1) scikit-learn (0.21.3) pandas (0.24.2) openpyxl (3.0.2) plotly (4.5.3) matplotlib (3.1.2) matplotlib_venn (0.11.5) bio2bel (0.2.1) pathme diffupy
命令行界面
以下命令可以直接从您的终端使用
下载网络分析数据库.
以下命令生成表示给定数据库网络的 BEL 文件。
$ python3 -m diffupath database get-database --database=<database-name>
要检查可用的数据库,请运行以下命令
$ python3 -m diffupath database ls
运行扩散分析
以下命令将在给定网络和给定数据上运行扩散方法
$ python3 -m diffupath diffusion diffuse --network=<path-to-network-file> --data=<path-to-data-file> --method=<method>
运行扩散分析
$ python3 -m diffupath diffusion evaluate -i=<input_data> -n=<path_network>
输入数据
您可以将数据集提交为以下任何格式
CSV (.csv)
TSV (.tsv)
请确保数据集至少有一个包含节点 ID 的“节点”列。您还可以选择性地添加以下列到您的数据集中
节点类型
LogFC [*]
p 值
输入数据集示例
DiffuPath 接受多种输入格式,这些格式可以以不同的方式编码。有关更多详细信息,请参阅 扩散分数摘要。
您可以提供一个包含节点 ID 的“节点”列的数据集。
节点 |
---|
A |
B |
C |
D |
2. 您也可以提供一个包含节点 ID 的“节点”列以及“节点类型”列的数据集,该列指示节点的实体类型,以按实体类型运行扩散。
节点 |
节点类型 |
---|---|
A |
基因 |
B |
基因 |
C |
代谢物 |
D |
基因 |
3. 您也可以选择提供一个包含节点 ID 的“节点”列以及它们的 LogFC 的“logFC”列的数据集。您还可以添加一个“节点类型”列来按实体类型运行扩散。
节点 |
LogFC |
---|---|
A |
4 |
B |
-1 |
C |
1.5 |
D |
3 |
4. 最后,您可以提供一个包含节点 ID 的“节点”列、它们的 logFC 的“logFC”列以及调整后的 p 值的“p-value”列的数据集。您还可以添加一个“节点类型”列来按实体类型运行扩散。
节点 |
LogFC |
p 值 |
---|---|---|
A |
4 |
0.03 |
B |
-1 |
0.05 |
C |
1.5 |
0.001 |
D |
3 |
0.07 |
您还可以查看我们的 示例数据集 文件夹中的示例文件。
网络
在本节中,我们描述了您可以选择运行扩散方法的网络类型。这些包括以下内容,并在本节中详细描述 [†]
选择代表单个生物数据库的网络
选择多个数据库以生成一个协调一致的网络
从四个预定义的生物数据库集合中选择一个来表示协调一致的网络
提交您自己的网络 [‡],格式必须为接受格式之一
请注意,通过DiffuPath提供的所有网络都是使用PyBEL v.0.13.2生成的。
如果您的网络中存在重复节点,请查看这个Jupyter Notebook以解决问题。
网络转储
由于生成内核的高计算成本,我们提供了预计算的内核链接,代表一组生物数据库的网络。
数据库 |
描述 |
参考 |
下载 |
---|---|---|---|
DDR |
疾病-疾病关联 |
||
DrugBank |
药物和药物靶点相互作用 |
||
基因本体 |
数万生物过程的层次结构 |
||
HSDN |
疾病与症状之间的关联 |
||
KEGG |
生物途径中的多组学相互作用 |
||
miRTarBase |
miRNA与其靶点之间的相互作用 |
||
Reactome |
生物途径中的多组学相互作用 |
||
SIDER |
药物和副作用之间的关联 |
||
WikiPathways |
生物途径中的多组学相互作用 |
如果您想使用我们的预定义集合之一,您可以类似地下载代表集成生物数据库的网络集的预计算内核。
集合 |
数据库 |
描述 |
下载 |
---|---|---|---|
#1 |
KEGG、Reactome和WikiPathways |
-组学和生物过程/途径 |
|
#2 |
KEGG、Reactome、WikiPathways和DrugBank |
-组学和生物过程/途径,重点关注药物/化学相互作用 |
|
#3 |
KEGG、Reactome、WikiPathways和MirTarBase |
-组学和生物过程/途径,富含miRNA |
自定义网络格式
您也可以提交以下格式之一的自定义网络
BEL (.bel)
CSV (.csv)
GML (.gml或.xml)
GraphML (.graphml或.xml)
Pickle (.pickle)
TSV (.tsv)
TXT (.txt)
至少,请确保以下列都包含在您提交的网络文件中
源
目标
您可以选择在您的网络中添加第三列,“关系”(如下例所示)。如果省略了源和目标节点之间的关系,并且/或者方向性不明确,则可以将任一节点指定为源或目标。
自定义网络示例
源 |
目标 |
关系 |
---|---|---|
A |
B |
增加 |
B |
C |
关联 |
A |
D |
关联 |
您也可以查看我们的示例网络文件夹中的示例。
免责声明
DiffuPath是一种在学术能力下开发的科学软件,因此不提供任何保证或维护、支持或数据备份的保证。
参考文献
多明戈-费尔南德斯,D.,穆比恩,S.,马里林-劳,J.,霍伊特,C.,等。霍夫曼-阿皮特斯,M.(2019)。PathMe:合并和探索机制通路知识。 BMC生物信息学,20:243。
霍伊特,C. T.,等。(2019)。使用生物表达语言整合结构化生物数据源。 bioRxiv,631812。
门切,J.,等。(2015)。疾病网络。通过不完整的互作组揭示疾病-疾病关系。[科学] 347(6224),1257601。
威沙特,D. S.,等。(2018)。DrugBank 5.0:2018年DrugBank数据库的重大更新。[核酸酸研究] 46(D1),D1074–D1082。
阿什伯纳,M.,等。(2000)。基因本体:统一生物学的工具。基因本体协会。[自然遗传学] 25(1),25–9。
周,X.,门切,J.,巴拉巴西,A. L.,& 莎尔玛,A.(2014)。人类症状-疾病网络。[自然通讯] 5(1),1-10。
贺内西萨,等。(2017)。KEGG:对基因组、通路、疾病和药物的新视角。[核酸酸研究] 45,D353-D361。
黄,H. Y.,等。(2020)。miRTarBase 2020:实验验证的microRNA-靶标相互作用数据库更新。[核酸酸研究] 48(D1),D148-D154。
法布雷加特,A 等。(2016)。Reactome通路知识库。[核酸酸研究] 44。数据库问题:D481–D487。
库恩,M.,等。(2016)。SIDER药物和副作用数据库。[核酸酸研究] 44(D1),D1075–D1079。
斯莱特,D.N.,等。(2017)。WikiPathways:连接代谢组学到其他组学研究的多功能通路数据库。[核酸酸研究] 46(D1):D661-D667。
项目详情
diffupath-0.0.3.tar.gz的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 0dd5d5b7d05ec54d25748ed948706b020bd4d974e5cb13bfcae1c4466e2a9fca |
|
MD5 | 8be24411088330bfbdb4ac5b849a7913 |
|
BLAKE2b-256 | 0a4fe6bbf87a8c5dbf9e1b2cfc554d96c61a9c0645ba4afd9e9543f32238cb7c |