Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。
项目描述
Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。
我该如何安装这个包?
像往常一样,只需使用pip下载即可
pip install epigenomic_dataset
测试覆盖率
由于一些处理覆盖率的软件有时会得到略有不同的结果,这里列出了三个
待办事项:以下部分需要稍作结构调整!
顺式调控区域的预处理数据
我们已经下载并获得了数据集中细胞系A549、GM12878、H1、HEK293、HepG2、K562和MCF7每个启动子和增强子区域的最大窗口值,以及Roadmap数据集中细胞系A549、GM12878、H1、HepG2和K562的所有目标特征的完整表(请参见完整的表观基因组表)。
Fantom中用于分类增强子和启动子激活的阈值是CRR标签中解释的默认值,该标签处理从Fantom和Roadmap下载和预处理数据。
数据集 |
组装 |
窗口大小 |
区域 |
细胞系 |
下载URL |
---|---|---|---|---|---|
fantom |
hg38 |
256 |
启动子 |
GM12878 |
|
fantom |
hg38 |
256 |
启动子 |
A549 |
|
fantom |
hg38 |
256 |
启动子 |
HEK293 |
|
fantom |
hg38 |
256 |
启动子 |
HepG2 |
|
fantom |
hg38 |
256 |
启动子 |
K562 |
|
fantom |
hg38 |
256 |
启动子 |
H1 |
|
fantom |
hg38 |
256 |
启动子 |
MCF-7 |
|
fantom |
hg38 |
256 |
增强子 |
GM12878 |
|
fantom |
hg38 |
256 |
增强子 |
A549 |
|
fantom |
hg38 |
256 |
增强子 |
HEK293 |
|
fantom |
hg38 |
256 |
增强子 |
HepG2 |
|
fantom |
hg38 |
256 |
增强子 |
K562 |
|
fantom |
hg38 |
256 |
增强子 |
H1 |
|
fantom |
hg38 |
256 |
增强子 |
MCF-7 |
|
fantom |
hg38 |
128 |
启动子 |
GM12878 |
|
fantom |
hg38 |
128 |
启动子 |
A549 |
|
fantom |
hg38 |
128 |
启动子 |
HEK293 |
|
fantom |
hg38 |
128 |
启动子 |
HepG2 |
|
fantom |
hg38 |
128 |
启动子 |
K562 |
|
fantom |
hg38 |
128 |
启动子 |
H1 |
|
fantom |
hg38 |
128 |
启动子 |
MCF-7 |
|
fantom |
hg38 |
128 |
增强子 |
GM12878 |
|
fantom |
hg38 |
128 |
增强子 |
A549 |
|
fantom |
hg38 |
128 |
增强子 |
HEK293 |
|
fantom |
hg38 |
128 |
增强子 |
HepG2 |
|
fantom |
hg38 |
128 |
增强子 |
K562 |
|
fantom |
hg38 |
128 |
增强子 |
H1 |
|
fantom |
hg38 |
128 |
增强子 |
MCF-7 |
|
fantom |
hg38 |
64 |
启动子 |
GM12878 |
|
fantom |
hg38 |
64 |
启动子 |
A549 |
|
fantom |
hg38 |
64 |
启动子 |
HEK293 |
|
fantom |
hg38 |
64 |
启动子 |
HepG2 |
|
fantom |
hg38 |
64 |
启动子 |
K562 |
|
fantom |
hg38 |
64 |
启动子 |
H1 |
|
fantom |
hg38 |
64 |
启动子 |
MCF-7 |
|
fantom |
hg38 |
64 |
增强子 |
GM12878 |
|
fantom |
hg38 |
64 |
增强子 |
A549 |
|
fantom |
hg38 |
64 |
增强子 |
HEK293 |
|
fantom |
hg38 |
64 |
增强子 |
HepG2 |
|
fantom |
hg38 |
64 |
增强子 |
K562 |
|
fantom |
hg38 |
64 |
增强子 |
H1 |
|
fantom |
hg38 |
64 |
增强子 |
MCF-7 |
|
fantom |
hg38 |
1024 |
启动子 |
GM12878 |
|
fantom |
hg38 |
1024 |
启动子 |
A549 |
|
fantom |
hg38 |
1024 |
启动子 |
HEK293 |
|
fantom |
hg38 |
1024 |
启动子 |
HepG2 |
|
fantom |
hg38 |
1024 |
启动子 |
K562 |
|
fantom |
hg38 |
1024 |
启动子 |
H1 |
|
fantom |
hg38 |
1024 |
启动子 |
MCF-7 |
|
fantom |
hg38 |
1024 |
增强子 |
GM12878 |
|
fantom |
hg38 |
1024 |
增强子 |
A549 |
|
fantom |
hg38 |
1024 |
增强子 |
HEK293 |
|
fantom |
hg38 |
1024 |
增强子 |
HepG2 |
|
fantom |
hg38 |
1024 |
增强子 |
K562 |
|
fantom |
hg38 |
1024 |
增强子 |
H1 |
|
fantom |
hg38 |
1024 |
增强子 |
MCF-7 |
|
fantom |
hg38 |
512 |
启动子 |
GM12878 |
|
fantom |
hg38 |
512 |
启动子 |
A549 |
|
fantom |
hg38 |
512 |
启动子 |
HEK293 |
|
fantom |
hg38 |
512 |
启动子 |
HepG2 |
|
fantom |
hg38 |
512 |
启动子 |
K562 |
|
fantom |
hg38 |
512 |
启动子 |
H1 |
|
fantom |
hg38 |
512 |
启动子 |
MCF-7 |
|
fantom |
hg38 |
512 |
增强子 |
GM12878 |
|
fantom |
hg38 |
512 |
增强子 |
A549 |
|
fantom |
hg38 |
512 |
增强子 |
HEK293 |
|
fantom |
hg38 |
512 |
增强子 |
HepG2 |
|
fantom |
hg38 |
512 |
增强子 |
K562 |
|
fantom |
hg38 |
512 |
增强子 |
H1 |
|
fantom |
hg38 |
512 |
增强子 |
MCF-7 |
以下是所有考虑的细胞系的标签。
数据集 |
启动子 |
增强子 |
||
---|---|---|---|---|
Fantom |
||||
Roadmap |
待办事项:在参考标签数据集中对启动子和增强子进行对齐。
用于检索CRR表观基因组数据的完整流程在此 。
自动检索预处理数据
您可以通过以下方式自动检索数据:
from epigenomic_dataset import load_epigenomes
X, y = load_epigenomes(
cell_line = "K562",
dataset = "fantom",
region = "promoters",
window_size = 256,
root = "datasets" # Path where to download data
)
表观基因组数据流程
所考虑的原始数据来自ENCODE项目的此查询
您可以在此处找到可用的表观遗传组完整列表。这些数据集被选中,因为在编写时间(2020年7月2日),它们已知问题的数量最少,例如读数分辨率低。
您可以按照以下方式运行管道:假设您想提取HepG2和H1细胞系的表观遗传学特征
from epigenomic_dataset import build
build(
bed_path="path/to/my/bed/file.bed",
cell_lines=["HepG2", "H1"]
)
如果您想指定文件存储位置,请使用
from epigenomic_dataset import build
build(
bed_path="path/to/my/bed/file.bed",
cell_lines=["HepG2", "H1"],
path="path/to/my/target"
)
默认情况下,下载的大Wig文件不会被删除。您可以选择如下删除文件
from epigenomic_dataset import build
build(
bed_path="path/to/my/bed/file.bed",
cell_lines=["HepG2", "H1"],
path="path/to/my/target",
clear_download=True
)
项目详情
epigenomic_dataset-1.2.14.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b93ff70064a26457d6bf688f90eb504caa0984708fd246124acebc188470a16c |
|
MD5 | 371850a3f913be28d664ac70ca2843b4 |
|
BLAKE2b-256 | e31cfe77af61ba9d46424f2684bba043c9855f4f9f41f7f2bd073e5e0979b9fa |