sourmash插件，用于改进宏基因组中的包含性搜索输出

项目描述

sourmash_plugin_containment_search：改进宏基因组中基因组包含性搜索

此插件提供两个命令 sourmash scripts mgsearch 和 sourmash scripts mgmanysearch，它们提供了在宏基因组中搜索基因组的新颖且更好的输出。它是 sourmash软件的插件。

背景

报告查询在数据集中的存在并估计其丰度是许多生物信息学分析的核心要求，尤其是宏基因组学。

此插件提供两个命令，使用k-mer来估计查询在数据集中的存在和丰度。用例包括

检测宏基因组中的特定基因组；
估计宏基因组中基因组的丰度；
宏基因组中contig级别的丰度估计用于分类；
宏基因组中基因组的菌株级别分析；

此插件使用基于 FracMinHash估计来计算k-mer 检测并根据k-mer多重性估计覆盖率。这些数字与基于映射的检测和覆盖率非常接近。

此插件使用 Rahman Hera等人在2023年描述的方法并在sourmash中实现来输出平均核苷酸身份估计。

安装

要安装此插件，请运行

pip install sourmash_plugin_containment_search

(如果您尚未安装sourmash，这将安装sourmash。)

用法

此插件启用两个命令，mgsearch 和 mgmanysearch。

`mgsearch` - 在多个数据集中搜索单个查询

此命令

sourmash scripts mgsearch query.sig metagenome.sig [ metagenome2.sig ...] \
    [ -o output.csv ]

将在一个或多个 metagenome.sig 文件中搜索查询基因组 query.sig，产生可读性良好的人类输出和（可选）有用的CSV输出。

例如，

sourmash scripts mgsearch ../sourmash/podar-ref/0.fa.sig ../sourmash/SRR606249.trim.k31.sig.gz

产生

Loaded query signature: CP001472.1 Acidobacterium capsulatum ATCC 51196, com...

p_genome avg_abund   p_metag   metagenome name
-------- ---------   -------   ---------------
 100.0%    55.4         3.1%   SRR606249

此插件还可以与所有标准sourmash数据库类型一起工作。

请注意，必须使用 -p abund 选项来绘制宏基因组，以启用 avg_abund 和 p_metag 列。

`mgmanysearch` - 在多个数据集中搜索多个查询

此命令

sourmash scripts mgmanysearch --queries query1.sig [ query2.sig ... ]\
    --against metagenome.sig [ metagenome2.sig ...] \
    [ -o output.csv ]

将在一个或多个 metagenome*.sig 文件中搜索 query*.sig 查询，生成可读性较好的输出，以及（可选）有用的CSV输出。

背景：为什么有这个命令？

sourmash search 支持样本搜索样本搜索，范围很广——也许太广了。并且输出格式并不那么有帮助。

sourmash prefetch 支持对多个基因组进行宏基因组重叠搜索，这与本用例相反。此外，prefetch 不提供加权结果，其输出也不友好。

sourmash gather 有友好的有用输出，但不能用于计算单个查询基因组与多个目标宏基因组之间的重叠。

也有人对于反向包含搜索表示兴趣。

sourmash branchwater 插件的 manysearch 命令也执行类似的包含搜索，但它的输出不友好，也不提供加权结果。（然而，manysearch 的内存使用量要低得多，可能要快得多，因为它主要是用 Rust 编写的。）

高级信息：实现细节

此命令是流式的，即它会加载每个宏基因组，计算匹配，然后丢弃宏基因组。因此，其内存使用量在最大的宏基因组时达到峰值，其最大值应由查询的大小加上最大宏基因组的大小驱动。

CSV输出

每一行包含以下信息。

比较详情

intersect_bp - 基因组和宏基因组之间的重叠，通过乘以使用的缩放因子来估计。
f_query - 查询（基因组）中找到的比例，即“检测”；大致等于将被映射的宏基因组读数覆盖的碱基数量。
f_match - 找到的宏基因组比例，未加权。
f_match_weighted - 找到的宏基因组比例，加权。大致等于将映射到该基因组的宏基因组读数的比例。
sum_weighted_found - 交集哈希的权重总和。
average_abund - 交集哈希的权重平均丰度。
median_abund - 交集哈希权重的中位数丰度。
std_abund - 交集哈希权重的标准偏差。
jaccard - （未加权）sketch之间的Jaccard相似度。
genome_containment_ani - 从宏基因组中的基因组包含估计的ANI。用于基因组ANI估计。
match_containment_ani - 从基因组中的宏基因组包含估计的ANI。
average_containment_ani - 从基因组和宏基因组包含的平均值估计的ANI。
max_containment_ani - 从基因组/宏基因组之间的最大包含估计的ANI。
potential_false_negative - 如果草图大小太小，无法提供可靠的ANI估计，则为真。如果ANI估计可靠，则为假。

草图信息

ksize - 比较的ksize。
moltype - 比较的moltype。
scaled - 比较的缩放。

查询（基因组）信息

query_filename - 从草图中的基因组文件名。
query_name - 基因组名称。
query_md5 - 基因组md5。
query_n_hashes - 基因组中的哈希总数。

匹配（宏基因组）信息

match_filename - 从草图中的宏基因组文件名。
match_name - 宏基因组名称。
match_md5 - 宏基因组md5。
match_n_hashes - 宏基因组中的哈希总数。
match_n_weighted_hashes - 宏基因组中的加权哈希总数。

支持

我们建议在主sourmash问题跟踪器中提交问题，因为那里会得到更多的关注！

开发文档

containment_search 在 https://github.com/ctb/sourmash_plugin_containment_search 开发。

生成发布版本

在 pyproject.toml 中增加版本号并推送。

在 github 上创建新的发布版本。

然后拉取，并

python -m build

接着执行 twine upload dist/...。

项目详情

发布历史发布通知 | RSS 源

此版本

0.4.5

2024年7月30日

0.4.4

2024年7月25日

0.4.3

2024年2月10日

0.4.2

2024年2月8日

0.4.1

2024年2月6日

0.4.0

2024年2月6日

0.3.0

2024年2月5日

0.2.1

2024年2月4日

下载文件

下载适用于您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

sourmash_plugin_containment_search-0.4.5.tar.gz (10.1 kB 查看哈希值)

上传 2024年7月30日 源

构建分布

sourmash_plugin_containment_search-0.4.5-py3-none-any.whl (9.4 kB 查看哈希值)

上传 2024年7月30日 Python 3

哈希值 for sourmash_plugin_containment_search-0.4.5.tar.gz

哈希值 for sourmash_plugin_containment_search-0.4.5.tar.gz
算法	哈希摘要
SHA256	`50775c0d468f5bcdc71de333f237dc49093f5814c2986202111fb2c322f2bffa`
MD5	`6ce580b4e71ea15b1b61ea6aa318209e`
BLAKE2b-256	`c422cc9f8a6dde275548abd1f886f886d1bf98f153dd5bfaa5308d7c484a4865`

哈希值 for sourmash_plugin_containment_search-0.4.5-py3-none-any.whl

哈希值 for sourmash_plugin_containment_search-0.4.5-py3-none-any.whl
算法	哈希摘要
SHA256	`30c1bb30ca4868574182da6d5b0880fc9d817b08ef5f7f736415a8019ccfd72a`
MD5	`a1aed7754b23d63ed7c9fd4b9912dc65`
BLAKE2b-256	`a947b17a26b8e28043cdf7730a023f0cb17e32f836c9f7164a29bef026db3295`

sourmash-plugin-containment-search 0.4.5

导航

验证详情

维护者

未验证详情

元数据

项目描述

sourmash_plugin_containment_search：改进宏基因组中基因组包含性搜索

背景

安装

用法

`mgsearch` - 在多个数据集中搜索单个查询

`mgmanysearch` - 在多个数据集中搜索多个查询

背景：为什么有这个命令？

高级信息：实现细节

CSV输出

比较详情

草图信息

查询（基因组）信息

匹配（宏基因组）信息

支持

开发文档

生成发布版本

项目详情

验证详情

维护者

未验证详情

元数据

发布历史发布通知 | RSS 源

下载文件

源分布

构建分布

sourmash-plugin-containment-search 0.4.5

导航

验证详情

维护者

未验证详情

元数据

项目描述

sourmash_plugin_containment_search：改进宏基因组中基因组包含性搜索

背景

安装

用法

mgsearch - 在多个数据集中搜索单个查询

mgmanysearch - 在多个数据集中搜索多个查询

背景：为什么有这个命令？

高级信息：实现细节

CSV输出

比较详情

草图信息

查询（基因组）信息

匹配（宏基因组）信息

支持

开发文档

生成发布版本

项目详情

验证详情

维护者

未验证详情

元数据

发布历史 发布通知 | RSS 源

下载文件

源分布

构建分布

`mgsearch` - 在多个数据集中搜索单个查询

`mgmanysearch` - 在多个数据集中搜索多个查询

发布历史发布通知 | RSS 源