跳转到主要内容

在生物数据库网络上计算扩散分数

项目描述

https://github.com/multipaths/diffupath/blob/master/docs/source/meta/diffupath_logo.png

简介 构建状态 文档状态

DiffuPath 是一种生物网络分析工具,它将来自 DiffuPy 的通用标签传播算法与编码在多种格式中的生物网络(如简单交互格式(SIF)或生物表达语言(BEL))相连接。例如,在论文中提出的应用场景中,我们使用了三个通路数据库(即 KEGG、Reactome 和 WikiPathways)及其从 PathMe 获取的集成网络[1],以分析三个多组学数据集。然而,也可以从 Bio2BEL 生态系统导入其他生物网络[2]

安装 PyPI 上的当前版本 支持的稳定 Python 版本 Apache-2.0

可以从 PyPI 安装最新稳定代码

$ python3 -m pip install diffupath

可以从 GitHub 的源代码安装最新代码

$ python3 -m pip install git+https://github.com/multipaths/diffupath.git

对于开发者,可以从 GitHub 克隆仓库并在可编辑模式下安装

$ git clone https://github.com/multipaths/diffupath.git
$ cd diffupath
$ python3 -m pip install -e .

需求

diffupath 需要以下库

networkx (>=2.1)
pybel (0.13.2)
biokeen (0.0.14)
click (7.0)
tqdm (4.31.1)
numpy (1.16.3)
scipy (1.2.1)
scikit-learn (0.21.3)
pandas (0.24.2)
openpyxl (3.0.2)
plotly (4.5.3)
matplotlib (3.1.2)
matplotlib_venn (0.11.5)
bio2bel (0.2.1)
pathme
diffupy

命令行界面

以下命令可以直接从您的终端使用

  1. 下载网络分析数据库.

以下命令生成表示给定数据库网络的 BEL 文件。

$ python3 -m diffupath database get-database --database=<database-name>

要检查可用的数据库,请运行以下命令

$ python3 -m diffupath database ls
  1. 运行扩散分析

以下命令将在给定网络和给定数据上运行扩散方法

$ python3 -m diffupath diffusion diffuse --network=<path-to-network-file> --data=<path-to-data-file> --method=<method>
  1. 运行扩散分析

$ python3 -m diffupath diffusion evaluate -i=<input_data> -n=<path_network>

输入数据

您可以将数据集提交为以下任何格式

  • CSV (.csv)

  • TSV (.tsv)

请确保数据集至少有一个包含节点 ID 的“节点”列。您还可以选择性地添加以下列到您的数据集中

  • 节点类型

  • LogFC [*]

  • p 值

输入数据集示例

DiffuPath 接受多种输入格式,这些格式可以以不同的方式编码。有关更多详细信息,请参阅 扩散分数摘要

  1. 您可以提供一个包含节点 ID 的“节点”列的数据集。

节点

A

B

C

D

2. 您也可以提供一个包含节点 ID 的“节点”列以及“节点类型”列的数据集,该列指示节点的实体类型,以按实体类型运行扩散。

节点

节点类型

A

基因

B

基因

C

代谢物

D

基因

3. 您也可以选择提供一个包含节点 ID 的“节点”列以及它们的 LogFC 的“logFC”列的数据集。您还可以添加一个“节点类型”列来按实体类型运行扩散。

节点

LogFC

A

4

B

-1

C

1.5

D

3

4. 最后,您可以提供一个包含节点 ID 的“节点”列、它们的 logFC 的“logFC”列以及调整后的 p 值的“p-value”列的数据集。您还可以添加一个“节点类型”列来按实体类型运行扩散。

节点

LogFC

p 值

A

4

0.03

B

-1

0.05

C

1.5

0.001

D

3

0.07

您还可以查看我们的 示例数据集 文件夹中的示例文件。

网络

在本节中,我们描述了您可以选择运行扩散方法的网络类型。这些包括以下内容,并在本节中详细描述 []

  • 选择代表单个生物数据库的网络

  • 选择多个数据库以生成一个协调一致的网络

  • 从四个预定义的生物数据库集合中选择一个来表示协调一致的网络

  • 提交您自己的网络 [],格式必须为接受格式之一

网络转储

由于生成内核的高计算成本,我们提供了预计算的内核链接,代表一组生物数据库的网络。

数据库

描述

参考

下载

DDR

疾病-疾病关联

[3]

ddr.json

DrugBank

药物和药物靶点相互作用

[4]

drugbank.json

基因本体

数万生物过程的层次结构

[5]

go.json

HSDN

疾病与症状之间的关联

[6]

hsdn.json

KEGG

生物途径中的多组学相互作用

[7]

kegg.json

miRTarBase

miRNA与其靶点之间的相互作用

[8]

mirtarbase.json

Reactome

生物途径中的多组学相互作用

[9]

reactome.json

SIDER

药物和副作用之间的关联

[10]

sider.json

WikiPathways

生物途径中的多组学相互作用

[11]

wikipathways.json

如果您想使用我们的预定义集合之一,您可以类似地下载代表集成生物数据库的网络集的预计算内核。

集合

数据库

描述

下载

#1

KEGG、Reactome和WikiPathways

-组学和生物过程/途径

pathme.json

#2

KEGG、Reactome、WikiPathways和DrugBank

-组学和生物过程/途径,重点关注药物/化学相互作用

pathme_drugbank.json

#3

KEGG、Reactome、WikiPathways和MirTarBase

-组学和生物过程/途径,富含miRNA

pathme_mirtarbase.json

自定义网络格式

您也可以提交以下格式之一的自定义网络

  • BEL (.bel)

  • CSV (.csv)

  • Edge list (.lst)

  • GML (.gml或.xml)

  • GraphML (.graphml或.xml)

  • Pickle (.pickle)

  • TSV (.tsv)

  • TXT (.txt)

至少,请确保以下列都包含在您提交的网络文件中

  • 目标

您可以选择在您的网络中添加第三列,“关系”(如下例所示)。如果省略了源和目标节点之间的关系,并且/或者方向性不明确,则可以将任一节点指定为源或目标。

自定义网络示例

目标

关系

A

B

增加

B

C

关联

A

D

关联

您也可以查看我们的示例网络文件夹中的示例。

免责声明

DiffuPath是一种在学术能力下开发的科学软件,因此不提供任何保证或维护、支持或数据备份的保证。

参考文献

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

diffupath-0.0.3.tar.gz (47.4 kB 查看散列)

上传时间

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面