跳转到主要内容

基于半监督Siamese神经网络的宏基因组分箱

项目描述

S³N²Bin (半监督Siamese神经网络宏基因组分箱)

Test Status Documentation Status License: MIT

注意: 此工具仍在开发中。欢迎尝试并期待反馈,但在此稳定之前,可能会出现一些错误/快速变化。请使用Github issues提交错误报告,并使用Discussions进行更开放式的讨论/提问。

使用参考基因组信息进行半监督深度学习宏基因组分箱的命令工具。

安装

S3N2Bin在Python 3.6-3.8上运行。

从源代码安装

您可以从github下载源代码并安装。

使用conda安装依赖包: Bedtools, Hmmer, Fraggenescancmake.

conda install -c bioconda bedtools hmmer fraggenescan
conda install -c anaconda cmake=3.19.6
python setup.py install

示例

简单单/共组装分箱模式

您需要以下输入

  1. 一个contig文件(以下示例中的contig.fna
  2. 来自映射的BAM文件

您可以使用一行代码获取结果。single_easy_bin命令可用于单样本和共组装分箱模式(使用mmseqs和GTDB参考基因组进行contig注释)。single_easy_bin包括以下步骤:predict_taxonomygenerate_data_singlebin

S3N2Bin single_easy_bin -i contig.fna -b *.bam -o output

在此示例中,S³N²Bin将GTDB下载到$HOME/.cache/S3N2Bin/mmseqs2-GTDB/GTDB。您可以使用-r参数更改此默认设置。

简易多样本分箱模式

可以在多样本分箱模式下使用 multi_easy_bin 命令(使用 GTDB 参考基因组进行 mmseqs 连接组注释)。multi_easy_bin 包含以下步骤:predict_taxonomygenerate_data_multibin

你需要以下输入。

  1. 一个合并的连接组文件

  2. 来自映射的BAM文件

对于每个连接组,名称的格式是 <sample_name>:<contig_name>,其中 : 是默认分隔符(可以使用 --separator 参数更改)。注意:确保样本名称是唯一的,分隔符在分割时不会引起混淆。例如

>S1:Contig_1
AGATAATAAAGATAATAATA
>S1:Contig_2
CGAATTTATCTCAAGAACAAGAAAA
>S1:Contig_3
AAAAAGAGAAAATTCAGAATTAGCCAATAAAATA
>S2:Contig_1
AATGATATAATACTTAATA
>S2:Contig_2
AAAATATTAAAGAAATAATGAAAGAAA
>S3:Contig_1
ATAAAGACGATAAAATAATAAAAGCCAAATCCGACAAAGAAAGAACGG
>S3:Contig_2
AATATTTTAGAGAAAGACATAAACAATAAGAAAAGTATT
>S3:Contig_3
CAAATACGAATGATTCTTTATTAGATTATCTTAATAAGAATATC

您可以用一行代码获取结果。

S3N2Bin multi_easy_bin -i contig_whole.fna -b *.bam -o output

高级分箱模式

您可以自行运行单个步骤,这可以启用使用计算集群来加快分箱过程(尤其是在多样本分箱模式下)。

有关用法和如何单独运行单个步骤的详细信息,请阅读文档

输出

输出文件夹将包含

  1. 用于训练和聚类的数据集。

  2. 保存的半监督深度学习模型。

  3. 输出分箱。

  4. 一些中间文件。

对于每个样本,重建的分箱位于 output_recluster_bins 目录中。

有关输出的更多详细信息,请阅读文档

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

S3N2Bin-0.1.1.tar.gz (2.9 MB 查看散列)

上传时间

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面