为sourmash提供的快速命令行扩展
项目描述
sourmash_plugin_branchwater
tl;dr 通过此插件实现更快、内存更低的sourmash功能。
详情
sourmash 是一个用于使用k-mer进行宏基因组分析和基因组比较的命令行工具和Python/Rust库。虽然sourmash速度快、内存低,但sourmash v4和更低版本在Python容器中以单线程模式运行。
此插件为sourmash提供的branchwater插件(此插件!)提供了几个重要sourmash功能的更快和更低内存的实现 - 绘图、搜索和收集(宏基因组分解)。它是通过在sourmash的核心Rust库之上实现更高级别的Rust函数来实现的。因此,它提供了与sourmash相同的一些功能,但速度提高了10-100倍,内存降低了10倍。
此代码仍在原型模式中,并不具备sourmash的所有功能。随着我们添加功能,我们将将其移回sourmash的核心代码库;最终,此存储库中的大部分代码将直接集成到sourmash中。
如果您对此插件很感兴趣但不确定从哪里开始,我们建议首先确定您需要运行sourmash功能以实现目标。一旦您的sourmash命令运行正常,请再次查看这些文档,看看此插件中是否有更快的实现。
此存储库最初是一个基于 PyO3 的Python包装器,用于 核心branchwater代码。 Branchwater 是一个快速、低内存且多线程的应用程序,用于搜索由 sourmash 生成的非常大的 FracMinHash sketches 集合。
有关技术细节,请参阅 src/
中的 Rust 代码和 src/python/
中的 Python 包装器。
文档
以下是一个快速入门指南,以及更多用户文档在这里。还有初期的开发者文档可供参考!
更好的绘图插件betterplot提供了一些与 branchwater 输出配合使用的命令。特别是,
mds2
和tsne2
从pairwise
输出生成 MDS 和 tSNE 图;clustermap1
从pairwise
和multisearch
输出生成 seaborn 集群图;clusters_to_categories
使用cluster
命令的输出为着色和标签绘图生成类别;pairwise_to_matrix
将pairwise
的输出转换为 sourmash 比较矩阵;
有关示例图表和命令,请参阅betterplot README!
展示 multisearch
的快速入门
本快速入门演示了使用Awad 等人,2017 年的 64 个基因组进行 multisearch
。
1. 安装 branchwater 插件
在 Linux 和 Mac OS X 上,您可以从 conda-forge 安装 branchwater 插件的最新版本。
conda install sourmash_plugin_branchwater
有关安装最新开发版本的信息,请参阅开发者文档。
2. 下载草图。
以下命令将 podar 基因组的 sourmash 草图下载到文件 podar-ref.zip
中:
curl -L https://osf.io/4t6cq/download -o podar-ref.zip
3. 执行!
现在运行 multisearch
来搜索所有草图之间的匹配
sourmash scripts multisearch podar-ref.zip podar-ref.zip -o results.csv --cores 4
您将(希望如此 ;)) 在 results.csv
中看到一组结果。这些是每个查询与所有匹配基因组的比较。
调试帮助
如果您的集合加载不正确,请尝试在它们上运行 sourmash sig summarize
,如下所示:
sourmash sig summarize podar-ref.zip
如果这不起作用,那么您在创建集合时遇到了问题。请在sourmash 问题跟踪器中寻求帮助!
行为准则
本项目遵循sourmash 行为准则。
许可证
本软件遵循 AGPL 许可证。请参阅 LICENSE.txt。
作者
- Luiz Irber
- C. Titus Brown
- Mohamed Abuelanin
- N. Tessa Pierce-Ward
项目详情
sourmash_plugin_branchwater-0.9.7.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 5d9fd10efa454badf7eb0678c598817ab075856161ad567f056f5e0f4c29367d |
|
MD5 | c36e4e8599d68920d76412735e5d9ab4 |
|
BLAKE2b-256 | 301650d7337d6084033126177667c869765f0f46c96ea7b8cd35a246d9bb6b5e |