跳转到主要内容

为sourmash提供的快速命令行扩展

项目描述

sourmash_plugin_branchwater

PyPI Conda Version

tl;dr 通过此插件实现更快、内存更低的sourmash功能。

详情

sourmash 是一个用于使用k-mer进行宏基因组分析和基因组比较的命令行工具和Python/Rust库。虽然sourmash速度快、内存低,但sourmash v4和更低版本在Python容器中以单线程模式运行。

此插件为sourmash提供的branchwater插件(此插件!)提供了几个重要sourmash功能的更快和更低内存的实现 - 绘图、搜索和收集(宏基因组分解)。它是通过在sourmash的核心Rust库之上实现更高级别的Rust函数来实现的。因此,它提供了与sourmash相同的一些功能,但速度提高了10-100倍,内存降低了10倍。

此代码仍在原型模式中,并不具备sourmash的所有功能。随着我们添加功能,我们将将其移回sourmash的核心代码库;最终,此存储库中的大部分代码将直接集成到sourmash中。

如果您对此插件很感兴趣但不确定从哪里开始,我们建议首先确定您需要运行sourmash功能以实现目标。一旦您的sourmash命令运行正常,请再次查看这些文档,看看此插件中是否有更快的实现。

此存储库最初是一个基于 PyO3 的Python包装器,用于 核心branchwater代码Branchwater 是一个快速、低内存且多线程的应用程序,用于搜索由 sourmash 生成的非常大的 FracMinHash sketches 集合。

有关技术细节,请参阅 src/ 中的 Rust 代码和 src/python/ 中的 Python 包装器。

文档

以下是一个快速入门指南,以及更多用户文档在这里。还有初期的开发者文档可供参考!

更好的绘图插件betterplot提供了一些与 branchwater 输出配合使用的命令。特别是,

  • mds2tsne2pairwise 输出生成 MDS 和 tSNE 图;
  • clustermap1pairwisemultisearch 输出生成 seaborn 集群图
  • clusters_to_categories 使用 cluster 命令的输出为着色和标签绘图生成类别;
  • pairwise_to_matrixpairwise 的输出转换为 sourmash 比较矩阵;

有关示例图表和命令,请参阅betterplot README

展示 multisearch 的快速入门

本快速入门演示了使用Awad 等人,2017 年的 64 个基因组进行 multisearch

1. 安装 branchwater 插件

在 Linux 和 Mac OS X 上,您可以从 conda-forge 安装 branchwater 插件的最新版本。

conda install sourmash_plugin_branchwater

有关安装最新开发版本的信息,请参阅开发者文档

2. 下载草图。

以下命令将 podar 基因组的 sourmash 草图下载到文件 podar-ref.zip 中:

curl -L https://osf.io/4t6cq/download -o podar-ref.zip

3. 执行!

现在运行 multisearch 来搜索所有草图之间的匹配

sourmash scripts multisearch podar-ref.zip podar-ref.zip -o results.csv --cores 4

您将(希望如此 ;)) 在 results.csv 中看到一组结果。这些是每个查询与所有匹配基因组的比较。

调试帮助

如果您的集合加载不正确,请尝试在它们上运行 sourmash sig summarize,如下所示:

sourmash sig summarize podar-ref.zip

如果这不起作用,那么您在创建集合时遇到了问题。请在sourmash 问题跟踪器中寻求帮助!

行为准则

本项目遵循sourmash 行为准则

许可证

本软件遵循 AGPL 许可证。请参阅 LICENSE.txt

作者

  • Luiz Irber
  • C. Titus Brown
  • Mohamed Abuelanin
  • N. Tessa Pierce-Ward

项目详情


下载文件

下载您平台上的文件。如果您不确定选择哪个,请了解更多关于安装软件包的信息。

源分发

sourmash_plugin_branchwater-0.9.7.tar.gz (1.0 MB 查看哈希值)

上传时间:

由以下组织支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面