跳转到主要内容

Python包,封装了cis调控区域的FANTOM和Roadmap标签。

项目描述

Travis CI build SonarCloud Quality SonarCloud Maintainability Codacy Maintainability Maintainability Pypi project Pypi total project downloads

Python包,封装了cis调控区域的FANTOM和Roadmap标签。

如何安装此包?

像往常一样,只需使用pip下载即可

pip install crr_labels

测试覆盖率

由于一些处理覆盖率的软件有时会得到略微不同的结果,这里提供了三个结果

Coveralls Coverage SonarCloud Coverage Code Climate Coverate

使用示例

目前,我们支持FANTOM CAGE数据Roadmap,但将来还将添加基于开放染色质数据的额外cis调控数据集。

FANTOM

要检索FANTOM启动子和增强子,您可以按照以下步骤操作

from crr_labels import fantom

enhancers, promoters = fantom(
    cell_lines=["HelaS3", "GM12878"], # list of cell lines to be considered.
    window_size=200, # window size to use for the various regions.
    genome = "hg19", # considered genome version. Currently supported only "hg19".
    center_enhancers = "peak", # how to center the enhancer window, either around "peak" or the "center" of the region.
    enhancers_threshold = 0, # activation threshold for the enhancers.
    promoters_threshold = 5, # activation threshold for the promoters.
    drop_always_inactive_rows = True, # whether to drop the rows where no activation is detected for every row.
    binarize = True, # whether to return the data binary-encoded, zero for inactive, one for active.
    nrows = None # the number of rows to read, useful when testing pipelines for creating smaller datasets.
)

该库将下载并解析fantom项目原始数据,并为所需细胞系返回两个DataFrame。请考虑阅读方法的docstring以获取有关方法的更深入信息。

主要步骤如下

  • fantom_data.json文件中指定的链接检索fantom数据集的原始文件

  • 增强子和启动子的窗口将扩展或压缩到给定的窗口大小。特别是

    • 增强子的窗口可以是“center”模式,以区域中心为中心,或者“peak”模式,以峰值为中心。

    • 启动子的窗口在正链上从启动子末尾上游,在负链上从启动子开始下游。

  • 对于某个细胞系存在多个实验时,例如对于“HelaS3”,执行激活峰值的平均值。

  • 可选(默认情况下)删除始终不活跃的行。您可以使用参数“drop_always_inactive_rows”指定此行为。

Roadmap

要检索路线图促进剂和增强子,您可以按照以下步骤操作

from crr_labels import roadmap

enhancers, promoters = roadmap(
    cell_lines = ["HelaS3", "GM12878"], # List of cell lines to be considered.
    window_size = 200, # Window size to use for the various regions.
    genome = "hg19", # Considered genome version. Currently supported only "hg19".
    states = 18, # Number of the states of the model to consider. Currently supported only "15" and "18".
    enhancers_labels = ("7_Enh", "9_EnhA1", "10_EnhA2"), # Labels to encode as active enhancers.
    promoters_labels = ("1_TssA",), # Labels to enode as active promoters.
    nrows = None # the number of rows to read, useful when testing pipelines for creating smaller datasets.
)

建议阅读方法文档字符串以获取有关该方法的更深入信息。

渲染数据集

以下两个数据集包含了7种常见细胞系(GM12878、HelaS3、HepG2、K562、A549、H1、H9)和其他不在其他数据集中的各种细胞系的标签。

FANTOM

以下数据集包含了GM12878、HelaS3、HepG2、K562、A549、H1、H9、JURKAT、MCF7、HEK293、Caco2、HL60和PC3细胞系的实验数据。

待办事项:渲染数据集

Roadmap

以下数据集包含了GM12878、HelaS3、HepG2、K562、A549、H1、H9、DND41、HUES48、HUES6、HUES64和IMR90细胞系的实验数据。

待办事项:一旦我们确定要使用的新状态,将立即添加更新的处理标签。

项目详情


下载文件

下载您平台上的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

crr_labels-1.1.1.tar.gz (12.0 kB 查看哈希值)

上传时间

由以下支持