在VCF文件中绘制等位基因频率
项目描述
afplot
这是一个绘制VCF文件中等位基因频率的工具。
可用的两个主要子命令是:* regions:绘制单个区域或bed文件中的区域,可选地带有边距。* whole-genome:为基因组上的每个染色体创建单个图像。
两个子命令都有三种模式
histogram:这将创建一个等位基因频率的核密度图直方图。
scatter:创建一个沿区域或染色体的等位基因频率散点图。
distance:创建一个沿区域或染色体的理论等位基因频率距离散点图。这对于二倍体的自体染色体才有意义。
默认情况下,颜色对应于调用类型(hom_alt/ref/hom_ref)。
对于whole-genome子命令,可以同时提供多个VCF文件,在这种情况下,它们可以根据标签进行分组。当提供多个VCF文件时,图将根据每个VCF文件的标签着色。
每个VCF文件只能绘制一个样本。
我们目前假设在FORMAT字段中存在一个AD列。此列应包含每个等位基因的深度,其中参考等位基因是第一个。
所有VCF文件都应使用tabix索引,并应在标题中包含contigs。
安装
afplot可以通过pypi使用: pip install afplot
要求
Python 3.4+
click
numpy
matplotlib
pandas
seaborn
progressbar2
pysam
pyvcf
用法
Usage: afplot [OPTIONS] COMMAND [ARGS]...
Plot allele frequencies in VCF files.
Two basic modes exist:
- regions: Plot histogram, scatter or distance plots per
user-specified region.
- whole-genome: Plot histogram, scatter or distance plots over the
entire genome.
Options:
--help Show this message and exit.
Commands:
regions Region plots
whole-genome Whole-genome plots
示例
单个区域上的单个VCF
afplot regions histogram -v my.vcf.gz -o 输出目录 -R chr1:100-200
bed文件上的单个VCF
afplot regions histogram -v my.vcf.gz -o 输出目录 -L regions.bed
整个基因组的单个VCF
afplot 全基因组直方图 -v my.vcf.gz -l my_label -s my_sample -o mysample.histogram.png
多个VCF的全基因组
afplot 全基因组直方图 -v my1.vcf.gz -l my_label1 -s my_sample1 -v my2.vcf.gz -l my_label2 -s my_sample2 -o both_samples.histogram.png
可以通过为样本提供相同的标签来对样本进行分组。例如。
afplot 全基因组直方图 -v 1.vcf.gz -v 2.vcf.gz -v 3.vcf.gz -v 4.vcf.gz -l group1 -l group1 -l group2 -l group2 [...]
排除全基因组中的contigs
在某些情况下,您可能不希望绘制所有contigs。例如,当您的vcf头包含许多小的未定位contigs时。可以通过向-e标志提供正则表达式模式来实现这一点。例如,可以通过以下方式过滤出包含“gl”的所有contigs
afplot 全基因组 [...] -e '.*gl.*'
变更日志
0.2
整个命令行界面已更改为使用click,而不是常规的argparse。这允许更复杂的CLI。afplot现在使用子命令而不是具有绘图模式的标志。
尽管CLI已更改,afplot的内部结构也已重构,但旧风格的(版本0.1)API仍然在位。这可能在将来被弃用。
添加了对绘制区域的支持。区域绘图输出在目录中,而不是在单个文件中。
许可证
MIT
项目详情
下载文件
下载适用于您平台的项目文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码分发
构建分发
afplot-0.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | e345777e40a3822c4a098933336861d99707dc88fe479453f40cb470f37b196b |
|
MD5 | f43752e34e4a8fbfed3cf1e951b4f4c2 |
|
BLAKE2b-256 | b72d2052f6bc95f69826c3c82dcc1020f89ad1f6c61ea469944b2389dc67ccdc |
afplot-0.2.1-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 54c1d8de87eb9eb84130aa4d9741f5b1cf3fc3966de554726da63c9499a5f146 |
|
MD5 | 3b097bb241cd99d48917bd92af54ab51 |
|
BLAKE2b-256 | d3f6c0615986be54594dace49a0e621528a552b54c26b8b5c1de1da057890edb |