Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。
项目描述
Python包,用于封装多个参考细胞系的ENCODE表观基因组数据。
我该如何安装这个包?
像往常一样,只需使用pip下载即可
pip install epigenomic_dataset测试覆盖率
由于一些处理覆盖率的软件有时会得到略有不同的结果,这里列出了三个
待办事项:以下部分需要稍作结构调整!
顺式调控区域的预处理数据
我们已经下载并获得了数据集中细胞系A549、GM12878、H1、HEK293、HepG2、K562和MCF7每个启动子和增强子区域的最大窗口值,以及Roadmap数据集中细胞系A549、GM12878、H1、HepG2和K562的所有目标特征的完整表(请参见完整的表观基因组表)。
Fantom中用于分类增强子和启动子激活的阈值是CRR标签中解释的默认值,该标签处理从Fantom和Roadmap下载和预处理数据。
| 数据集 | 组装 | 窗口大小 | 区域 | 细胞系 | 下载URL | 
|---|---|---|---|---|---|
| fantom | hg38 | 256 | 启动子 | GM12878 | |
| fantom | hg38 | 256 | 启动子 | A549 | |
| fantom | hg38 | 256 | 启动子 | HEK293 | |
| fantom | hg38 | 256 | 启动子 | HepG2 | |
| fantom | hg38 | 256 | 启动子 | K562 | |
| fantom | hg38 | 256 | 启动子 | H1 | |
| fantom | hg38 | 256 | 启动子 | MCF-7 | |
| fantom | hg38 | 256 | 增强子 | GM12878 | |
| fantom | hg38 | 256 | 增强子 | A549 | |
| fantom | hg38 | 256 | 增强子 | HEK293 | |
| fantom | hg38 | 256 | 增强子 | HepG2 | |
| fantom | hg38 | 256 | 增强子 | K562 | |
| fantom | hg38 | 256 | 增强子 | H1 | |
| fantom | hg38 | 256 | 增强子 | MCF-7 | |
| fantom | hg38 | 128 | 启动子 | GM12878 | |
| fantom | hg38 | 128 | 启动子 | A549 | |
| fantom | hg38 | 128 | 启动子 | HEK293 | |
| fantom | hg38 | 128 | 启动子 | HepG2 | |
| fantom | hg38 | 128 | 启动子 | K562 | |
| fantom | hg38 | 128 | 启动子 | H1 | |
| fantom | hg38 | 128 | 启动子 | MCF-7 | |
| fantom | hg38 | 128 | 增强子 | GM12878 | |
| fantom | hg38 | 128 | 增强子 | A549 | |
| fantom | hg38 | 128 | 增强子 | HEK293 | |
| fantom | hg38 | 128 | 增强子 | HepG2 | |
| fantom | hg38 | 128 | 增强子 | K562 | |
| fantom | hg38 | 128 | 增强子 | H1 | |
| fantom | hg38 | 128 | 增强子 | MCF-7 | |
| fantom | hg38 | 64 | 启动子 | GM12878 | |
| fantom | hg38 | 64 | 启动子 | A549 | |
| fantom | hg38 | 64 | 启动子 | HEK293 | |
| fantom | hg38 | 64 | 启动子 | HepG2 | |
| fantom | hg38 | 64 | 启动子 | K562 | |
| fantom | hg38 | 64 | 启动子 | H1 | |
| fantom | hg38 | 64 | 启动子 | MCF-7 | |
| fantom | hg38 | 64 | 增强子 | GM12878 | |
| fantom | hg38 | 64 | 增强子 | A549 | |
| fantom | hg38 | 64 | 增强子 | HEK293 | |
| fantom | hg38 | 64 | 增强子 | HepG2 | |
| fantom | hg38 | 64 | 增强子 | K562 | |
| fantom | hg38 | 64 | 增强子 | H1 | |
| fantom | hg38 | 64 | 增强子 | MCF-7 | |
| fantom | hg38 | 1024 | 启动子 | GM12878 | |
| fantom | hg38 | 1024 | 启动子 | A549 | |
| fantom | hg38 | 1024 | 启动子 | HEK293 | |
| fantom | hg38 | 1024 | 启动子 | HepG2 | |
| fantom | hg38 | 1024 | 启动子 | K562 | |
| fantom | hg38 | 1024 | 启动子 | H1 | |
| fantom | hg38 | 1024 | 启动子 | MCF-7 | |
| fantom | hg38 | 1024 | 增强子 | GM12878 | |
| fantom | hg38 | 1024 | 增强子 | A549 | |
| fantom | hg38 | 1024 | 增强子 | HEK293 | |
| fantom | hg38 | 1024 | 增强子 | HepG2 | |
| fantom | hg38 | 1024 | 增强子 | K562 | |
| fantom | hg38 | 1024 | 增强子 | H1 | |
| fantom | hg38 | 1024 | 增强子 | MCF-7 | |
| fantom | hg38 | 512 | 启动子 | GM12878 | |
| fantom | hg38 | 512 | 启动子 | A549 | |
| fantom | hg38 | 512 | 启动子 | HEK293 | |
| fantom | hg38 | 512 | 启动子 | HepG2 | |
| fantom | hg38 | 512 | 启动子 | K562 | |
| fantom | hg38 | 512 | 启动子 | H1 | |
| fantom | hg38 | 512 | 启动子 | MCF-7 | |
| fantom | hg38 | 512 | 增强子 | GM12878 | |
| fantom | hg38 | 512 | 增强子 | A549 | |
| fantom | hg38 | 512 | 增强子 | HEK293 | |
| fantom | hg38 | 512 | 增强子 | HepG2 | |
| fantom | hg38 | 512 | 增强子 | K562 | |
| fantom | hg38 | 512 | 增强子 | H1 | |
| fantom | hg38 | 512 | 增强子 | MCF-7 | 
以下是所有考虑的细胞系的标签。
| 数据集 | 启动子 | 增强子 | ||
|---|---|---|---|---|
| Fantom | ||||
| Roadmap | 
待办事项:在参考标签数据集中对启动子和增强子进行对齐。
用于检索CRR表观基因组数据的完整流程在此 。
自动检索预处理数据
您可以通过以下方式自动检索数据:
from epigenomic_dataset import load_epigenomes
X, y = load_epigenomes(
    cell_line = "K562",
    dataset = "fantom",
    region = "promoters",
    window_size = 256,
    root = "datasets" # Path where to download data
)表观基因组数据流程
所考虑的原始数据来自ENCODE项目的此查询
您可以在此处找到可用的表观遗传组完整列表。这些数据集被选中,因为在编写时间(2020年7月2日),它们已知问题的数量最少,例如读数分辨率低。
您可以按照以下方式运行管道:假设您想提取HepG2和H1细胞系的表观遗传学特征
from epigenomic_dataset import build
build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"]
)如果您想指定文件存储位置,请使用
from epigenomic_dataset import build
build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"],
    path="path/to/my/target"
)默认情况下,下载的大Wig文件不会被删除。您可以选择如下删除文件
from epigenomic_dataset import build
build(
    bed_path="path/to/my/bed/file.bed",
    cell_lines=["HepG2", "H1"],
    path="path/to/my/target",
    clear_download=True
)项目详情
epigenomic_dataset-1.2.14.tar.gz 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | b93ff70064a26457d6bf688f90eb504caa0984708fd246124acebc188470a16c | |
| MD5 | 371850a3f913be28d664ac70ca2843b4 | |
| BLAKE2b-256 | e31cfe77af61ba9d46424f2684bba043c9855f4f9f41f7f2bd073e5e0979b9fa |