跳转到主要内容

sourceMash插件用于进行泛基因组学分析。

项目描述

sourmash_plugin_pangenomics: 基于sourceMash的泛基因组分析工具

安装

pip install sourmash_plugin_pangenomics

快速入门

您可以在git仓库的test_workflow目录中运行所有这些命令。

使用谱系构建泛基因组数据库

(CTB: 解释内容!)

以下命令使用gtdb-rs214-agatha-k21.zip中存在的sketch构建了包含gtdb-rs214-agatha.lineages.csv.gz谱系文件中物种的泛基因组数据库(目前仅包含s__Agathobacter faecis)。

sourmash scripts pangenome_createdb \
    gtdb-rs214-agatha-k21.zip \
    -t gtdb-rs214-agatha.lineages.csv.gz \
    -o agatha-merged.sig.zip --abund -k 21

输出文件是agatha-merged.sig.zip,包含以下内容

% sourmash sig summarize agatha-merged.sig.zip

...
num signatures: 1
** examining manifest...
total hashes: 27398
summary of sketches:
   1 sketches with DNA, k=21, scaled=1000, abund      27398 total hashes

注意:命令pangenome_merge(见下文)将通过合并所有提供的签名来构建一个泛基因组sketch。

构建泛基因组"ranktable"

"ranktable"是我们对分配hash泛基因组"rank"(核心、外核、壳、内部云层或表面云层)的数据库的称呼。

以下命令为上述创建的泛基因组数据库中的物种s__Agathobacter faecis构建ranktable

sourmash scripts pangenome_ranktable \
    agatha-merged.sig.zip \
    -o test_output/agathobacter_faecis.csv \
    -k 21 -l 'GCF_020557615 s__Agathobacter faecis'

输出文件是test_output/agathobacter_faecis.csv,包含两列

hashval,pangenome_classification
96834755571756,1
119187685848053,1
129679169912030,1
...
18440589591308259,4
18443409651295626,4
18446214016691046,4

其中第一列是hash值,第二列是该hash的泛基因组rank。

总结sketch中hash的rank

现在我们可以使用我们的ranktable来总结任何 sketch,包括宏基因组。这里我们使用人类肠道宏基因组SRR5650070

sourmash scripts pangenome_classify \
    SRR5650070.trim.sig.zip \
    test_output/agathobacter_faecis.csv \
    -k 21

这将产生以下输出

For 'test_output/agathobacter_faecis.csv', signature 'SRR5650070' contains:
         497 (12.5%) hashes are classified as central core
         427 (10.8%) hashes are classified as external core
         1791 (45.2%) hashes are classified as shell
         1251 (31.5%) hashes are classified as inner cloud
         0 (0.0%) hashes are classified as surface cloud
         ...and 262716 hashes are NOT IN the csv file

不使用谱系构建泛基因组sketch

(CTB: 解释内容!)

以下命令通过组合所有提供的sketch构建泛基因组sketch。这里我们使用gtdb-rs214-agatha-k21.zip文件中存在的sketch。

sourmash scripts pangenome_merge \
    gtdb-rs214-agatha-k21.zip \
    -o agatha-merged-2.sig.zip-k 21

输出文件是agatha-merged-2.sig.zip,与agatha-merged.sig.zip文件相同(例如,通过sourmash compare)。

支持

我们建议在主要sourceMash问题跟踪器中提交问题,因为那里会受到更多关注(并且无论如何都由同一批人监控)!

开发文档

sourmash_plugin_pangenomicshttps://github.com/sourmash-bio/sourmash_plugin_pangenomics开发。

测试

当前测试已实现为位于 test_workflow/ 的 Snakemake 工作流程。要运行它们,请在主目录中执行以下命令

make cleanrun

生成发布版本

pyproject.toml 中增加版本号并推送。

在 github 上创建新的发布版本。

然后拉取,接着

python -m build

执行 twine upload dist/...

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

sourmash_plugin_pangenomics-0.2.2.tar.gz (8.8 kB 查看哈希值)

上传时间 源代码

构建分发

sourmash_plugin_pangenomics-0.2.2-py3-none-any.whl (9.2 kB 查看哈希值)

上传时间 Python 3

由以下支持