EpiOut:DNA可及性数据的异常值检测。
项目描述
EpiOut
安装
使用以下命令安装epiout
及其配套包:
pip install epiout
hic-straw
是可选依赖项,用于使用EpiAnnot
注释染色质相互作用
conda install -c bioconda hic-straw
或
conda install -c conda-forge curl
pip install hic-straw
另一个可选依赖项是onnxruntime
,用于从异常染色质可及性预测异常基因表达
pip install onnxruntime
用法
使用EpiCount
从ATAC-seq数据中计数染色质可及性
epicount --bed {bed} --alignments {alignments.tsv} --output_prefix {output_prefix} --cores {threads}
其中,bed
是用于计数可及性的基因组区域bed文件,alignments.tsv
是ATAC-seq对齐的制表符分隔文件,output_prefix
是输出文件的前缀,threads
是要使用的线程数。有关更多详细信息,请参阅epicount --help
。
alignments.tsv
列出了ATAC-seq对齐的bam文件,每行一个文件,具有以下列
path/a.bam
path/b.bam
path/c.bam
文件名用作输出文件中的样本名称。或者,您可以使用以下列的制表符分隔文件来指定样本名称
path/a.bam sample_a
path/b.bam sample_b
path/c.bam sample_c
EpiCount
将生成三个文件:prefix.counts.parquet
、prefix.raw_counts.parquet
、prefix.bed
。包含计数矩阵的parquet文件。未过滤复制的raw_counts
文件,而counts
文件是过滤的。bed
文件包含跨样本复制的基因组区域。parquet文件可以用pandas
加载,如下所示
df = pd.read_parquet('output_prefix.parquet')
df
EpiOut
要使用EpiOut调用异常值,请运行
epiout --count_table {prefix.counts.parquet} --output_prefix {output_prefix} --cores {threads}
其中 count_table
是 EpiCount
的输出,output_prefix
是输出文件的名称前缀,而 threads
是要使用的线程数。有关详细信息,请参阅 epiout --help
。您可以将普通计数矩阵的 csv 文件传递给 --count_table
参数,其中行是基因组区域,列是样本。
EpiOut
的输出是 prefix.h5ad
文件和 prefix.results.csv
文件。h5ad 文件包含关于异常值的统计信息。
from epiout import EpiOutResult
result = EpiOutResult.load('result.h5ad')
# outliers as dataframe
result.outlier
# log adjusted p-values as dataframe
result.log_padj
# results as dataframe alternatively read results.csv file
df_results = result.results()
# Visualize outliers or accessibile regions
result.qq_plot('chr1:100-200')
result.plot_counts('chr1:100-200')
result.plot_volcona('chr1:100-200')
有关 EpiOutResult
的更多详细信息,请参阅其文档。
EpiOut 通过超参数优化来自动编码器的最佳瓶颈大小。要指定瓶颈大小,请使用 --bottleneck_size
参数。
EpiAnnot
epiannot_create --tissue {tissue or cell line name} --output_prefix {output_prefix}
其中 tissue
是要检索的组织的名称或细胞系名称,output_prefix
是输出文件的名称前缀,其中将在其中创建 config.yaml
并包含元数据和相关文件。有关详细信息,请参阅 epiannot_create --help
。
您还可以检查可用的 tissues
或 cell lines
。
epiannot_list
要使用 EpiAnnot
标注可访问区域和染色质相互作用,请运行
epiannot --bed {bed} --gtf {gtf} --counts {prefix.h5ad} --chrom_sizes {chrom_sizes} --output_prefix {output_prefix}
其中 bed
是要注释的基因组区域的 bed 文件,gtf
是基因注释的 gtf 文件,counts
是 EpiOut
以 h5ad 文件格式输出的输出或 EpiCount 获得的 counts
,chrom_sizes
是染色体大小的文件,可以用 pyfaidx 从 fasta 文件生成,而 output_prefix
是输出文件的前缀。有关详细信息,请参阅 epiannot --help
。
输出包含基于配置文件中提供的组蛋白标记注释的基因组区域 prefix.annotation.csv
,基于基因邻近性的区域 prefix.gtf.csv
注释,区域间染色质相互作用的注释 prefix.interaction.csv
,以及潜在受异常染色质可及性影响的基因 prefix.genes.csv
。
您可以使用自定义配置文件创建注释
config.yaml
H3K27ac:
- ENCFF817IVB.bed.gz
- ENCFF916FML.bed.gz
H3K4me1:
- ENCFF456GWH.bed.gz
H3K4me3:
- ENCFF867WVM.bed.gz
your_custom_mark:
- a.bed
hic:
- ENCFF311CLH.hic
- ENCFF787ZVA.hic
配置文件中的键是组蛋白标记的名称,值是组蛋白标记的 bed 文件列表。配置文件还可以包含要注释染色质相互作用的 hic 文件列表。hic 数据是可选的。可以使用 epiannot_create
命令创建配置文件,或者您可以使用自己的配置文件。要调用启动子、活动增强子和准备增强子,请确保您将组蛋白标记命名为 H3K4me3
、H3K27ac
和 H3K4me1
。其他组蛋白标记或 bed 文件可以用于注释区域。输出 prefix.annotation.csv
将为配置文件中的每个键都有一个列,并指示可及区域是否与注释源重叠。
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分布
构建分布
epiout-0.0.1.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 203c77982deb679453981a0f57ec978e6e3d90771f02760d54313c242e54dc56 |
|
MD5 | 044808ddee1d009764c7ee2ab1be6406 |
|
BLAKE2b-256 | 34519f58cd7cee3b5553d7951158f10f0f762b91c45fecda36b51d64cf957d86 |
epiout-0.0.1-py3-none-any.whl 的哈希值
算法 | 散列摘要 | |
---|---|---|
SHA256 | 67057d0ac63c570e6de10b5fc98692354672534052b2625ebbf991cee585f99c |
|
MD5 | 82eb90409ed7ab55ef12f9fe232aa375 |
|
BLAKE2b-256 | b7175dec38e405a1352cbb5943203e649dc898698cee438a28a5e6b6e9687d1a |