sourceMash插件用于进行泛基因组学分析。
项目描述
sourmash_plugin_pangenomics: 基于sourceMash的泛基因组分析工具
安装
pip install sourmash_plugin_pangenomics
快速入门
您可以在git仓库的test_workflow
目录中运行所有这些命令。
使用谱系构建泛基因组数据库
(CTB: 解释内容!)
以下命令使用gtdb-rs214-agatha-k21.zip
中存在的sketch构建了包含gtdb-rs214-agatha.lineages.csv.gz
谱系文件中物种的泛基因组数据库(目前仅包含s__Agathobacter faecis
)。
sourmash scripts pangenome_createdb \
gtdb-rs214-agatha-k21.zip \
-t gtdb-rs214-agatha.lineages.csv.gz \
-o agatha-merged.sig.zip --abund -k 21
输出文件是agatha-merged.sig.zip
,包含以下内容
% sourmash sig summarize agatha-merged.sig.zip
...
num signatures: 1
** examining manifest...
total hashes: 27398
summary of sketches:
1 sketches with DNA, k=21, scaled=1000, abund 27398 total hashes
注意:命令pangenome_merge
(见下文)将通过合并所有提供的签名来构建一个泛基因组sketch。
构建泛基因组"ranktable"
"ranktable"是我们对分配hash泛基因组"rank"(核心、外核、壳、内部云层或表面云层)的数据库的称呼。
以下命令为上述创建的泛基因组数据库中的物种s__Agathobacter faecis
构建ranktable
sourmash scripts pangenome_ranktable \
agatha-merged.sig.zip \
-o test_output/agathobacter_faecis.csv \
-k 21 -l 'GCF_020557615 s__Agathobacter faecis'
输出文件是test_output/agathobacter_faecis.csv
,包含两列
hashval,pangenome_classification
96834755571756,1
119187685848053,1
129679169912030,1
...
18440589591308259,4
18443409651295626,4
18446214016691046,4
其中第一列是hash值,第二列是该hash的泛基因组rank。
总结sketch中hash的rank
现在我们可以使用我们的ranktable来总结任何 sketch,包括宏基因组。这里我们使用人类肠道宏基因组SRR5650070
。
sourmash scripts pangenome_classify \
SRR5650070.trim.sig.zip \
test_output/agathobacter_faecis.csv \
-k 21
这将产生以下输出
For 'test_output/agathobacter_faecis.csv', signature 'SRR5650070' contains:
497 (12.5%) hashes are classified as central core
427 (10.8%) hashes are classified as external core
1791 (45.2%) hashes are classified as shell
1251 (31.5%) hashes are classified as inner cloud
0 (0.0%) hashes are classified as surface cloud
...and 262716 hashes are NOT IN the csv file
不使用谱系构建泛基因组sketch
(CTB: 解释内容!)
以下命令通过组合所有提供的sketch构建泛基因组sketch。这里我们使用gtdb-rs214-agatha-k21.zip
文件中存在的sketch。
sourmash scripts pangenome_merge \
gtdb-rs214-agatha-k21.zip \
-o agatha-merged-2.sig.zip-k 21
输出文件是agatha-merged-2.sig.zip
,与agatha-merged.sig.zip
文件相同(例如,通过sourmash compare
)。
支持
我们建议在主要sourceMash问题跟踪器中提交问题,因为那里会受到更多关注(并且无论如何都由同一批人监控)!
开发文档
sourmash_plugin_pangenomics
在https://github.com/sourmash-bio/sourmash_plugin_pangenomics开发。
测试
当前测试已实现为位于 test_workflow/
的 Snakemake 工作流程。要运行它们,请在主目录中执行以下命令
make cleanrun
生成发布版本
在 pyproject.toml
中增加版本号并推送。
在 github 上创建新的发布版本。
然后拉取,接着
python -m build
执行 twine upload dist/...
。
项目详情
哈希值 for sourmash_plugin_pangenomics-0.2.2-py3-none-any.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | eec7aad598a18115c23a4c3da66c5a5d4c9094d0c3a497f727658dbeef399fe2 |
|
MD5 | 3ad0f5ededf546f120e193ee3bf0f1fb |
|
BLAKE2b-256 | b057a78ec9fe63fe39b75341a99fa569f2e27c7584027ca0da96b0831606cb12 |