使用条件随机字段进行基因簇预测。
项目描述
嗨,我是GECCO!
🦎 ️概述
GECCO(使用条件随机字段进行基因簇预测)是使用条件随机字段(CRFs)在基因组学和宏基因组数据中快速且可扩展地识别假定的新型生物合成基因簇(BGCs)的方法。
🔧 安装GECCO
GECCO是用Python编写的,支持从Python 3.7开始的所有版本。它需要从Python包索引PyPI安装的额外库。
使用pip
在您的机器上安装GECCO
$ pip install gecco-tool
如果您想使用Conda,可以在bioconda
频道中找到相应的包。您可以使用以下命令进行安装:
$ conda install -c bioconda gecco
这将安装GECCO、其依赖项以及运行预测所需的数据。这需要下载大约40MB的数据,因此根据您的互联网连接速度可能需要一些时间。完成后,您将在您的$PATH中拥有一个gecco
命令。
请注意,GECCO使用HMMER3,只能在PowerPC和运行POSIX操作系统的最新x86-64机器上运行。因此,GECCO可以在Linux和OSX上运行,但不能在Windows上运行。
🧬 运行GECCO
安装完成后,您可以通过终端运行它,给它一个包含您想要分析的基因组序列的FASTA或GenBank文件,以及一个输出目录。
$ gecco run --genome some_genome.fna -o some_output_dir
以下是一些有趣的参数:
--jobs
,用于控制GECCO在可以并行化时将启动的线程数量。默认值0将使用os.cpu_count
自动检测机器上的CPU数量。--cds
,控制BGC区域必须具有的连续基因的最小数量才能被GECCO检测到。默认值为3。--threshold
,控制基因被认为是BGC区域一部分的最小概率。使用较低的数字将增加预测的数量(以及可能长度),但会降低准确性。默认值0.8是为了优化测试集上364个BGC的精确度/召回率而选择的。--cds-feature
,可以提供一个特征名称以提取基因,如果输入文件已经包含基因注释,而不是使用Pyrodigal预测基因。从GenBank下载的记录的常用值是--cds-feature CDS
。
🔎 结果
GECCO将创建以下文件:
{genome}.genes.tsv
:包含从输入文件提取或预测的基因和CRF预测的每个基因的BGC概率的基因文件。{genome}.features.tsv
:包含在输入序列中识别到的结构域的特征文件,以表格格式。{genome}.clusters.tsv
:如果找到了任何,将包含预测簇的坐标及其假定的生物合成类型的簇文件,以表格格式。{genome}_cluster_{N}.gbk
:如果找到了任何,每个簇将有一个GenBank文件,包含注释有成员蛋白质和结构域的簇序列。
GECCO还可以将结果转换为其他可能更方便的格式。GECCO可以将结果转换为:
- GFF3格式,以便将它们加载到基因组查看器中(使用
gecco convert clusters --format gff
)。 - 带有antiSMASH样特征的GenBank文件,以便将它们加载到BiG-SLiCE中进行进一步分析(使用
gecco convert gbk --format bigslice
)。 - 所有预测的BGC的序列的FASTA文件(使用
gecco convert gbk --format fna
)或所有蛋白质的序列的FASTA文件(使用gecco convert gbk --format faa
)。
为了以更直观的方式探索预测,您可以在基因组编辑软件(如UGENE)中打开GenBank文件。否则,您可以加载结果到AntiSMASH报告中:请参阅文档中的集成页面以获取逐步指南。
🔖 参考文献
可以使用以下预印本引用GECCO:
使用GECCO准确识别生物合成基因簇。Laura M Carroll, Martin Larralde, Jonas Simon Fleck, Ruby Ponnudurai, Alessio Milanese, Elisa Cappio Barazzone, Georg Zeller. bioRxiv 2021.05.03.442509; doi:10.1101/2021.05.03.442509
💭 反馈
⚠️ 问题跟踪器
发现错误?有增强请求?如果您需要报告或询问,请前往 GitHub问题跟踪器。如果您正在报告错误,请尽可能提供有关问题的信息,并尝试在简单、易于复制的环境中重现相同的错误。
🏗️ 贡献
欢迎贡献力量!有关详细信息,请参阅 CONTRIBUTING.md
。
⚖️ 许可证
本软件在 GNU通用公共许可证v3.0 或更高版本 下提供。GECCO 由 Zeller团队 在 欧洲分子生物学实验室 开发。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。