Python包,封装了cis调控区域的FANTOM和Roadmap标签。
项目描述
Python包,封装了cis调控区域的FANTOM和Roadmap标签。
如何安装此包?
像往常一样,只需使用pip下载即可
pip install crr_labels
测试覆盖率
由于一些处理覆盖率的软件有时会得到略微不同的结果,这里提供了三个结果
使用示例
目前,我们支持FANTOM CAGE数据和Roadmap,但将来还将添加基于开放染色质数据的额外cis调控数据集。
FANTOM
要检索FANTOM启动子和增强子,您可以按照以下步骤操作
from crr_labels import fantom
enhancers, promoters = fantom(
cell_lines=["HelaS3", "GM12878"], # list of cell lines to be considered.
window_size=200, # window size to use for the various regions.
genome = "hg19", # considered genome version. Currently supported only "hg19".
center_enhancers = "peak", # how to center the enhancer window, either around "peak" or the "center" of the region.
enhancers_threshold = 0, # activation threshold for the enhancers.
promoters_threshold = 5, # activation threshold for the promoters.
drop_always_inactive_rows = True, # whether to drop the rows where no activation is detected for every row.
binarize = True, # whether to return the data binary-encoded, zero for inactive, one for active.
nrows = None # the number of rows to read, useful when testing pipelines for creating smaller datasets.
)
该库将下载并解析fantom项目原始数据,并为所需细胞系返回两个DataFrame。请考虑阅读方法的docstring以获取有关方法的更深入信息。
主要步骤如下
从fantom_data.json文件中指定的链接检索fantom数据集的原始文件
增强子和启动子的窗口将扩展或压缩到给定的窗口大小。特别是
增强子的窗口可以是“center”模式,以区域中心为中心,或者“peak”模式,以峰值为中心。
启动子的窗口在正链上从启动子末尾上游,在负链上从启动子开始下游。
对于某个细胞系存在多个实验时,例如对于“HelaS3”,执行激活峰值的平均值。
可选(默认情况下)删除始终不活跃的行。您可以使用参数“drop_always_inactive_rows”指定此行为。
Roadmap
要检索路线图促进剂和增强子,您可以按照以下步骤操作
from crr_labels import roadmap
enhancers, promoters = roadmap(
cell_lines = ["HelaS3", "GM12878"], # List of cell lines to be considered.
window_size = 200, # Window size to use for the various regions.
genome = "hg19", # Considered genome version. Currently supported only "hg19".
states = 18, # Number of the states of the model to consider. Currently supported only "15" and "18".
enhancers_labels = ("7_Enh", "9_EnhA1", "10_EnhA2"), # Labels to encode as active enhancers.
promoters_labels = ("1_TssA",), # Labels to enode as active promoters.
nrows = None # the number of rows to read, useful when testing pipelines for creating smaller datasets.
)
建议阅读方法文档字符串以获取有关该方法的更深入信息。
渲染数据集
以下两个数据集包含了7种常见细胞系(GM12878、HelaS3、HepG2、K562、A549、H1、H9)和其他不在其他数据集中的各种细胞系的标签。
FANTOM
以下数据集包含了GM12878、HelaS3、HepG2、K562、A549、H1、H9、JURKAT、MCF7、HEK293、Caco2、HL60和PC3细胞系的实验数据。
待办事项:渲染数据集
Roadmap
以下数据集包含了GM12878、HelaS3、HepG2、K562、A549、H1、H9、DND41、HUES48、HUES6、HUES64和IMR90细胞系的实验数据。
待办事项:一旦我们确定要使用的新状态,将立即添加更新的处理标签。
项目详情
crr_labels-1.1.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c8ae241d058aabc5e737e82f497e375c12bb160073a02934401ff9bf52835d29 |
|
MD5 | 39470bd7b83e9e77ed515d5e849a4a96 |
|
BLAKE2b-256 | a9cb0fd51b6e8c3a601a3def27c01d3c60c843cbe210407443dcd0886d688aec |