跳转到主要内容

EpiOut:DNA可及性数据的异常值检测。

项目描述

EpiOut

pypi tests codecov Documentation Status

method

安装

使用以下命令安装epiout及其配套包:

pip install epiout

hic-straw是可选依赖项,用于使用EpiAnnot注释染色质相互作用

conda install -c bioconda hic-straw

conda install -c conda-forge curl
pip install hic-straw

另一个可选依赖项是onnxruntime,用于从异常染色质可及性预测异常基因表达

pip install onnxruntime

用法

使用EpiCount从ATAC-seq数据中计数染色质可及性

epicount --bed {bed} --alignments {alignments.tsv} --output_prefix {output_prefix} --cores {threads}

其中,bed是用于计数可及性的基因组区域bed文件,alignments.tsv是ATAC-seq对齐的制表符分隔文件,output_prefix是输出文件的前缀,threads是要使用的线程数。有关更多详细信息,请参阅epicount --help

alignments.tsv列出了ATAC-seq对齐的bam文件,每行一个文件,具有以下列

path/a.bam
path/b.bam
path/c.bam

文件名用作输出文件中的样本名称。或者,您可以使用以下列的制表符分隔文件来指定样本名称

path/a.bam	sample_a
path/b.bam	sample_b
path/c.bam	sample_c

EpiCount将生成三个文件:prefix.counts.parquetprefix.raw_counts.parquetprefix.bed。包含计数矩阵的parquet文件。未过滤复制的raw_counts文件,而counts文件是过滤的。bed文件包含跨样本复制的基因组区域。parquet文件可以用pandas加载,如下所示

df = pd.read_parquet('output_prefix.parquet')
df

EpiOut

要使用EpiOut调用异常值,请运行

epiout --count_table {prefix.counts.parquet} --output_prefix {output_prefix} --cores {threads}

其中 count_tableEpiCount 的输出,output_prefix 是输出文件的名称前缀,而 threads 是要使用的线程数。有关详细信息,请参阅 epiout --help。您可以将普通计数矩阵的 csv 文件传递给 --count_table 参数,其中行是基因组区域,列是样本。

EpiOut 的输出是 prefix.h5ad 文件和 prefix.results.csv 文件。h5ad 文件包含关于异常值的统计信息。

from epiout import EpiOutResult

result = EpiOutResult.load('result.h5ad')

# outliers as dataframe
result.outlier

# log adjusted p-values as dataframe
result.log_padj

# results as dataframe alternatively read results.csv file
df_results = result.results()

# Visualize outliers or accessibile regions
result.qq_plot('chr1:100-200')
result.plot_counts('chr1:100-200')
result.plot_volcona('chr1:100-200')

有关 EpiOutResult 的更多详细信息,请参阅其文档。

EpiOut 通过超参数优化来自动编码器的最佳瓶颈大小。要指定瓶颈大小,请使用 --bottleneck_size 参数。

EpiAnnot

epiannot_create --tissue {tissue or cell line name} --output_prefix {output_prefix}

其中 tissue 是要检索的组织的名称或细胞系名称,output_prefix 是输出文件的名称前缀,其中将在其中创建 config.yaml 并包含元数据和相关文件。有关详细信息,请参阅 epiannot_create --help

您还可以检查可用的 tissuescell lines

epiannot_list

要使用 EpiAnnot 标注可访问区域和染色质相互作用,请运行

epiannot --bed {bed} --gtf {gtf} --counts {prefix.h5ad} --chrom_sizes {chrom_sizes} --output_prefix {output_prefix}

其中 bed 是要注释的基因组区域的 bed 文件,gtf 是基因注释的 gtf 文件,countsEpiOut 以 h5ad 文件格式输出的输出或 EpiCount 获得的 countschrom_sizes 是染色体大小的文件,可以用 pyfaidx 从 fasta 文件生成,而 output_prefix 是输出文件的前缀。有关详细信息,请参阅 epiannot --help

输出包含基于配置文件中提供的组蛋白标记注释的基因组区域 prefix.annotation.csv,基于基因邻近性的区域 prefix.gtf.csv 注释,区域间染色质相互作用的注释 prefix.interaction.csv,以及潜在受异常染色质可及性影响的基因 prefix.genes.csv

您可以使用自定义配置文件创建注释

config.yaml

H3K27ac:
- ENCFF817IVB.bed.gz
- ENCFF916FML.bed.gz

H3K4me1:
- ENCFF456GWH.bed.gz

H3K4me3:
- ENCFF867WVM.bed.gz

your_custom_mark:
- a.bed

hic:
- ENCFF311CLH.hic
- ENCFF787ZVA.hic

配置文件中的键是组蛋白标记的名称,值是组蛋白标记的 bed 文件列表。配置文件还可以包含要注释染色质相互作用的 hic 文件列表。hic 数据是可选的。可以使用 epiannot_create 命令创建配置文件,或者您可以使用自己的配置文件。要调用启动子、活动增强子和准备增强子,请确保您将组蛋白标记命名为 H3K4me3H3K27acH3K4me1。其他组蛋白标记或 bed 文件可以用于注释区域。输出 prefix.annotation.csv 将为配置文件中的每个键都有一个列,并指示可及区域是否与注释源重叠。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

epiout-0.0.1.tar.gz (37.0 kB 查看散列)

上传时间

构建分布

epiout-0.0.1-py3-none-any.whl (33.6 kB 查看散列)

上传时间 Python 3

支持