基于半监督Siamese神经网络的宏基因组分箱
项目描述
S³N²Bin (半监督Siamese神经网络宏基因组分箱)
注意: 此工具仍在开发中。欢迎尝试并期待反馈,但在此稳定之前,可能会出现一些错误/快速变化。请使用Github issues提交错误报告,并使用Discussions进行更开放式的讨论/提问。
使用参考基因组信息进行半监督深度学习宏基因组分箱的命令工具。
安装
S3N2Bin在Python 3.6-3.8上运行。
从源代码安装
您可以从github下载源代码并安装。
使用conda安装依赖包: Bedtools, Hmmer, Fraggenescan 和 cmake.
conda install -c bioconda bedtools hmmer fraggenescan
conda install -c anaconda cmake=3.19.6
python setup.py install
示例
简单单/共组装分箱模式
您需要以下输入
- 一个contig文件(以下示例中的
contig.fna
) - 来自映射的BAM文件
您可以使用一行代码获取结果。single_easy_bin
命令可用于单样本和共组装分箱模式(使用mmseqs和GTDB参考基因组进行contig注释)。single_easy_bin
包括以下步骤:predict_taxonomy
,generate_data_single
和 bin
。
S3N2Bin single_easy_bin -i contig.fna -b *.bam -o output
在此示例中,S³N²Bin将GTDB下载到$HOME/.cache/S3N2Bin/mmseqs2-GTDB/GTDB
。您可以使用-r
参数更改此默认设置。
简易多样本分箱模式
可以在多样本分箱模式下使用 multi_easy_bin
命令(使用 GTDB 参考基因组进行 mmseqs 连接组注释)。multi_easy_bin
包含以下步骤:predict_taxonomy
、generate_data_multi
和 bin
。
你需要以下输入。
-
一个合并的连接组文件
-
来自映射的BAM文件
对于每个连接组,名称的格式是 <sample_name>:<contig_name>
,其中 :
是默认分隔符(可以使用 --separator
参数更改)。注意:确保样本名称是唯一的,分隔符在分割时不会引起混淆。例如
>S1:Contig_1
AGATAATAAAGATAATAATA
>S1:Contig_2
CGAATTTATCTCAAGAACAAGAAAA
>S1:Contig_3
AAAAAGAGAAAATTCAGAATTAGCCAATAAAATA
>S2:Contig_1
AATGATATAATACTTAATA
>S2:Contig_2
AAAATATTAAAGAAATAATGAAAGAAA
>S3:Contig_1
ATAAAGACGATAAAATAATAAAAGCCAAATCCGACAAAGAAAGAACGG
>S3:Contig_2
AATATTTTAGAGAAAGACATAAACAATAAGAAAAGTATT
>S3:Contig_3
CAAATACGAATGATTCTTTATTAGATTATCTTAATAAGAATATC
您可以用一行代码获取结果。
S3N2Bin multi_easy_bin -i contig_whole.fna -b *.bam -o output
高级分箱模式
您可以自行运行单个步骤,这可以启用使用计算集群来加快分箱过程(尤其是在多样本分箱模式下)。
有关用法和如何单独运行单个步骤的详细信息,请阅读文档。
输出
输出文件夹将包含
-
用于训练和聚类的数据集。
-
保存的半监督深度学习模型。
-
输出分箱。
-
一些中间文件。
对于每个样本,重建的分箱位于 output_recluster_bins
目录中。
有关输出的更多详细信息,请阅读文档。
项目详情
S3N2Bin-0.1.1.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 0b4490dd3f68dea92aba74857123d3320b03ff41ab97c5677bfe99286bd72027 |
|
MD5 | 11772d917bd27e3e489257ff96a37dc7 |
|
BLAKE2b-256 | 46d6456e958d820cf1a0472ec951341b9056f73e9633b046a4de39a2e2f10084 |