Covest通过从DNA序列读取中计算得到的k-mer丰度直方图来估计覆盖率和基因组大小。
项目描述
一个工具,用于从读取中估计dna序列的覆盖率(和基因组大小)。
要求
python 3.4+
python3-dev
gcc
安装
我们建议在python3虚拟环境中安装CovEst。
pip install covest
对于开发
pip install -e . 从项目目录
使用方法
输入 covest --help 获取使用方法。
基本用法
covest histogram -m model -k K -r read_length
您可以使用 -s reads.fa 参数指定读取文件,以进行更精确的基因组大小计算。
默认 K 是 21
默认 读取长度 是 100
目前,支持的模型有
基本:适用于没有重复的简单基因组
重复:适用于具有重复序列的基因组
输入直方图指定
输入直方图可以使用 jellyfish 从读取数据生成。
jellyfish count -m K -C reads.fa -o table.jf
jellyfish histo table.jf -o reads.hist
直方图格式仅为行列表。每行包含一个索引和一个值,由空格分隔。
输出指定
CovEst 以 YAML 格式的简单子集输出结果,以提高可读性和机器处理的可能性。
输出为包含 key: value 的行。最重要的键是 coverage 和 genome_size(如果指定了读取大小,则为 genome_size_reads)。
其他包含的工具
geset.py 工具,用于从读取大小和已知覆盖率估计基因组大小
reads_size.py 工具,用于计算总读取大小
kmer_hist.py 自定义 khmer 直方图计算,它比其他工具慢得多,所以只有在没有其他选择时才使用它。
read_sampler.py 脚本用于读取抽样,如果您有非常高的覆盖率数据并且希望将其变小,则很有用。
fasta_length.py 获取 fasta 文件中所有序列的总长度。
版权和引用
CovEst 根据 GNU GPLv3 许可证授权。
- 由于 CovEst 是研究软件,因此当您在科学出版物中使用它时,应引用我们!
Hozza, M.,Vinař, T.,& Brejová, B. (2015, September). How Big is that Genome? Estimating Genome Size and Coverage from k-mer Abundance Spectra. In String Processing and Information Retrieval (pp. 199-209). Springer International Publishing.
项目详情
covest-0.5.6.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 9930b815befddbe0e542957cd225b21374b0dc3b497b8a8fba4ccae75f5f4e11 |
|
MD5 | da89543c749ad431e2057170786fdfbf |
|
BLAKE2b-256 | eda06e1fec077dd34f845791685ce72a456818a55fef1cfc85d230c4d6cb539e |