跳转到主要内容

基因聚类Python包

项目描述

生物指南针

https://img.shields.io/pypi/v/BioCompass.svg https://img.shields.io/travis/castelao/BioCompass.svg Documentation Status https://img.shields.io/travis/castelao/BioCompass.svg https://codecov.io/gh/castelao/BioCompass/branch/master/graph/badge.svg

基因聚类Python包

什么是生物指南针?

在天然产物领域,迫切需要从基因组水平上去重复生物合成途径。这种去重复包括根据它们的核苷酸序列同源性将生物合成基因簇(BGCs)分组到家族中,以及一种称为“基因簇网络”的程序。由于已发表的联网方法源代码尚未公开,我们为基因簇家族的发现改编了自己的策略,命名为生物合成基因簇比较同源软件(BioCompass)。请注意,这是BioCompass的beta版本,在官方发布之前仍在进行最终测试。本网站、其软件以及所有内容均以“现状”和“可用性”为基础提供。

生物指南针如何工作?

基于同源性和同源性,BioCompass将BGCs分为基因簇家族。这些簇需要通过antiSMASH进行识别,优先关闭ClusterFinder选项。使用相似性矩阵将每个BGC根据与最佳MultiGeneBLAST命中(使用antiSMASH 3.0获得)的合性和查询簇中每个基因的功能注释分为子簇。然后,将这些信息纳入特定查询的数据库中,以搜索每个子簇的最佳匹配。新创建的数据库包括由antiSMASH(从NCBI数据库,Genbank NR下载)识别的微生物BGCs和已知基因簇的MIBiG数据库的最新版本。用户还可以添加额外的基因簇,例如NCBI和MIBiG中缺失的基因簇。通过MultiGeneBLAST为每个子簇计算最终的相似度得分,并将其作为表格存储。可以使用Cytoscape v3.2.1显示输出结果为网络图。

未来实施

在天然产物研究领域使用网络方法的一个问题涉及网络本身的概念。为了准确地去重家族(既包括在GnPS(链接)中使用的分子家族,也包括基因簇家族),需要定义一个阈值,一旦超过这个阈值,两个基因簇就不再是同一家族的一部分。类似于使用16S rRNA基因时的物种定义,这个阈值是经验的,在某些情况下可能不够精确。因此,BioCompass设想实现一个截止值校准功能来最小化这个问题。新功能包括用户评估网络图中的基因同源性(通过多基因blast评分)和结构域同源性(通过Jaccard指数评分,这是一个即将实施的功能),直观地决定哪个截止值能更好地代表特定查询的这些分数。用户将使用内部标准来帮助决策过程。

历史

0.0.1 (2016-06-24)

  • 第一个Python包原型。

项目详情


下载文件

下载适用于您平台的应用程序。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分布

BioCompass-0.9.2.tar.gz (22.0 kB 查看哈希值)

上传时间

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面