跳转到主要内容

Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。

项目描述

Travis CI build SonarCloud Quality SonarCloud Maintainability Codacy Maintainability Maintainability Pypi project Pypi total project downloads

Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。

我该如何安装这个包?

像往常一样,只需使用pip下载即可

pip install epigenomic_dataset

测试覆盖率

由于一些处理覆盖率的软件有时会得到略有不同的结果,这里列出了三个

Coveralls Coverage SonarCloud Coverage Code Climate Coverate

待办事项:以下部分需要稍作结构调整!

顺式调控区域的预处理数据

我们已经下载并获得了数据集中细胞系A549、GM12878、H1、HEK293、HepG2、K562和MCF7每个启动子和增强子区域的最大窗口值,以及Roadmap数据集中细胞系A549、GM12878、H1、HepG2和K562的所有目标特征的完整表(请参见完整的表观基因组表)。

Fantom中用于分类增强子和启动子激活的阈值是CRR标签中解释的默认值,该标签处理从Fantom和Roadmap下载和预处理数据。

数据集

组装

窗口大小

区域

细胞系

下载URL

fantom

hg38

256

启动子

GM12878

下载

fantom

hg38

256

启动子

A549

下载

fantom

hg38

256

启动子

HEK293

下载

fantom

hg38

256

启动子

HepG2

下载

fantom

hg38

256

启动子

K562

下载

fantom

hg38

256

启动子

H1

下载

fantom

hg38

256

启动子

MCF-7

下载

fantom

hg38

256

增强子

GM12878

下载

fantom

hg38

256

增强子

A549

下载

fantom

hg38

256

增强子

HEK293

下载

fantom

hg38

256

增强子

HepG2

下载

fantom

hg38

256

增强子

K562

下载

fantom

hg38

256

增强子

H1

下载

fantom

hg38

256

增强子

MCF-7

下载

fantom

hg38

128

启动子

GM12878

下载

fantom

hg38

128

启动子

A549

下载

fantom

hg38

128

启动子

HEK293

下载

fantom

hg38

128

启动子

HepG2

下载

fantom

hg38

128

启动子

K562

下载

fantom

hg38

128

启动子

H1

下载

fantom

hg38

128

启动子

MCF-7

下载

fantom

hg38

128

增强子

GM12878

下载

fantom

hg38

128

增强子

A549

下载

fantom

hg38

128

增强子

HEK293

下载

fantom

hg38

128

增强子

HepG2

下载

fantom

hg38

128

增强子

K562

下载

fantom

hg38

128

增强子

H1

下载

fantom

hg38

128

增强子

MCF-7

下载

fantom

hg38

64

启动子

GM12878

下载

fantom

hg38

64

启动子

A549

下载

fantom

hg38

64

启动子

HEK293

下载

fantom

hg38

64

启动子

HepG2

下载

fantom

hg38

64

启动子

K562

下载

fantom

hg38

64

启动子

H1

下载

fantom

hg38

64

启动子

MCF-7

下载

fantom

hg38

64

增强子

GM12878

下载

fantom

hg38

64

增强子

A549

下载

fantom

hg38

64

增强子

HEK293

下载

fantom

hg38

64

增强子

HepG2

下载

fantom

hg38

64

增强子

K562

下载

fantom

hg38

64

增强子

H1

下载

fantom

hg38

64

增强子

MCF-7

下载

fantom

hg38

1024

启动子

GM12878

下载

fantom

hg38

1024

启动子

A549

下载

fantom

hg38

1024

启动子

HEK293

下载

fantom

hg38

1024

启动子

HepG2

下载

fantom

hg38

1024

启动子

K562

下载

fantom

hg38

1024

启动子

H1

下载

fantom

hg38

1024

启动子

MCF-7

下载

fantom

hg38

1024

增强子

GM12878

下载

fantom

hg38

1024

增强子

A549

下载

fantom

hg38

1024

增强子

HEK293

下载

fantom

hg38

1024

增强子

HepG2

下载

fantom

hg38

1024

增强子

K562

下载

fantom

hg38

1024

增强子

H1

下载

fantom

hg38

1024

增强子

MCF-7

下载

fantom

hg38

512

启动子

GM12878

下载

fantom

hg38

512

启动子

A549

下载

fantom

hg38

512

启动子

HEK293

下载

fantom

hg38

512

启动子

HepG2

下载

fantom

hg38

512

启动子

K562

下载

fantom

hg38

512

启动子

H1

下载

fantom

hg38

512

启动子

MCF-7

下载

fantom

hg38

512

增强子

GM12878

下载

fantom

hg38

512

增强子

A549

下载

fantom

hg38

512

增强子

HEK293

下载

fantom

hg38

512

增强子

HepG2

下载

fantom

hg38

512

增强子

K562

下载

fantom

hg38

512

增强子

H1

下载

fantom

hg38

512

增强子

MCF-7

下载

以下是所有考虑的细胞系的标签。

数据集

启动子

增强子

Fantom

200

1000

200

1000

Roadmap

200

1000

200

1000

待办事项:在参考标签数据集中对启动子和增强子进行对齐。

用于检索CRR表观基因组数据的完整流程在此

自动检索预处理数据

您可以通过以下方式自动检索数据:

from epigenomic_dataset import load_epigenomes

X, y = load_epigenomes(
    cell_line = "K562",
    dataset = "fantom",
    region = "promoters",
    window_size = 256,
    root = "datasets" # Path where to download data
)

表观基因组数据流程

所考虑的原始数据来自ENCODE项目的此查询

您可以在此处找到可用的表观遗传组完整列表。这些数据集被选中,因为在编写时间(2020年7月2日),它们已知问题的数量最少,例如读数分辨率低。

您可以按照以下方式运行管道:假设您想提取HepG2和H1细胞系的表观遗传学特征

from epigenomic_dataset import build

build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"]
)

如果您想指定文件存储位置,请使用

from epigenomic_dataset import build

build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"],
    path="path/to/my/target"
)

默认情况下,下载的大Wig文件不会被删除。您可以选择如下删除文件

from epigenomic_dataset import build

build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"],
    path="path/to/my/target",
    clear_download=True
)

项目详情


下载文件

下载适用于您平台的文件。如果您不确定该选择哪个,请了解更多关于安装包的信息。

源代码分发

epigenomic_dataset-1.2.14.tar.gz (16.6 kB 查看哈希值)

上传时间 源代码

由以下机构支持

AWSAWS云计算和安全赞助商DatadogDatadog监控FastlyFastlyCDNGoogleGoogle下载分析MicrosoftMicrosoftPSF赞助商PingdomPingdom监控SentrySentry错误记录StatusPageStatusPage状态页面