跳转到主要内容

Covest通过从DNA序列读取中计算得到的k-mer丰度直方图来估计覆盖率和基因组大小。

项目描述

一个工具,用于从读取中估计dna序列的覆盖率(和基因组大小)。

https://badge.fury.io/py/covest.svg https://travis-ci.org/mhozza/covest.svg?branch=master

要求

  • python 3.4+

  • python3-dev

  • gcc

安装

我们建议在python3虚拟环境中安装CovEst

pip install covest

对于开发

pip install -e . 从项目目录

使用方法

输入 covest --help 获取使用方法。

基本用法

covest histogram -m model -k K -r read_length

  • 您可以使用 -s reads.fa 参数指定读取文件,以进行更精确的基因组大小计算。

  • 默认 K 是 21

  • 默认 读取长度 是 100

  • 目前,支持的模型有

    • 基本:适用于没有重复的简单基因组

    • 重复:适用于具有重复序列的基因组

输入直方图指定

输入直方图可以使用 jellyfish 从读取数据生成。

  • jellyfish count -m K -C reads.fa -o table.jf

  • jellyfish histo table.jf -o reads.hist

直方图格式仅为行列表。每行包含一个索引和一个值,由空格分隔。

输出指定

CovEst 以 YAML 格式的简单子集输出结果,以提高可读性和机器处理的可能性。

输出为包含 key: value 的行。最重要的键是 coveragegenome_size(如果指定了读取大小,则为 genome_size_reads)。

其他包含的工具

  • geset.py 工具,用于从读取大小和已知覆盖率估计基因组大小

  • reads_size.py 工具,用于计算总读取大小

  • kmer_hist.py 自定义 khmer 直方图计算,它比其他工具慢得多,所以只有在没有其他选择时才使用它。

  • read_sampler.py 脚本用于读取抽样,如果您有非常高的覆盖率数据并且希望将其变小,则很有用。

  • fasta_length.py 获取 fasta 文件中所有序列的总长度。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

covest-0.5.6.tar.gz (40.4 kB 查看散列)

上传时间

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面