MIxS标准的LinkML模型
项目描述
MIxS
关于任何(X)序列的最小信息标准的规范
仓库内容
本仓库包含定义MIxS标准(6版及以后版本)的可计算工件。MIxS标准的旧版本可在https://github.com/GenomicsStandardsConsortium/mixs-legacy找到
从版本6开始,MIxS开始使用LinkML工具包进行管理。LinkML使用YAML文件来描述模式,并提供将YAML转换为多种其他格式的代码。
如何访问MIxS标准
标准可以在https://genomicsstandardsconsortium.github.io/mixs/上浏览。最新稳定的MIxS标准以多种格式在发布文件夹中下载,以机器可读格式提供。MIxS目前提供GraphQL、JSON-LD、JSON模式、OWL、prefixmap、protobuf、SCHACL、SHEX、SQL模式和Python。Java将在未来版本中添加,同时还将添加用于数据收集的Excel模板。在本仓库中目前仅发布了一个MIxS版本(MIxS 6)。当发布新版本时,此处将提供旧版本的链接
为了支持使用MIxS之前Excel版本的现有实施者,我们提供了一个与MIxS 5格式相同的Excel工作簿。然而,我们强烈建议使用发布文件夹中提供的任何机器可读工件。
MIxS分为清单和包。
清单包括特定类型序列(基因组、宏基因组、标记基因或xxx)所需、推荐和可选的元数据字段。对于基因组序列(MIGS),有针对特定分类群(真核生物、细菌、病毒和植物作为宿主)的清单。
包通过提供描述样本收集环境的额外术语来补充清单。例如,农业包包含多个描述农业环境的术语。
包可以与任何清单一起使用,例如,如果您在农业环境中进行宏基因组测序,您将使用MIMS + 农业包。所有可能的组合都在网页浏览器上提供。
要请求对MIxS标准的更改,请使用本仓库中的问题跟踪器。
其他仓库内容
- generated包含MIxS工件的工作版本。它是不稳定的,不应使用!
- doc_templates包含用于LinkML自动生成文档的jinja模板
- changelogs包含描述每个版本更改的文档
- MAINTAINERS.md提供了关于编辑和发布过程的更多技术细节
关于在本仓库中重用和引用内容的指南
MIxS标准和本仓库的内容在Creative Commons 0(开源)协议下免费提供。
引用此仓库
如果您从本仓库重用代码,请引用仓库URL
引用标准
如果您使用任何MIxS标准,请引用这篇论文
DOI: https://doi.org/10.1038/nbt.1823
或,在RIS格式中
一般背景
在没有具体指南的情况下,数据库中的大多数基因组、宏基因组及标记基因序列注释信息稀疏,无法指导数据整合、比较研究和知识生成。即使进行复杂的关键词搜索,目前也无法可靠地检索来自特定环境或地球上特定位置的序列——例如,某一区域所有来自“土壤”或“淡水湖泊”的序列。由于国际核苷酸序列数据库协作组织(INSDC;包括日本DNA数据库(DDBJ)、欧洲核苷酸档案(EBI-ENA)和GenBank)的公共数据库依赖于作者提交的信息来丰富序列数据集的价值,我们认为改变当前做法的唯一途径是建立一个标准,要求在提交序列时必须存档相关数据。采用这样的标准将提高从INSDC或任何其他数据存储库收集的信息的质量、可访问性和实用性。
基因组学标准委员会(GSC)已定义一组基因组与宏基因组的核心描述符,以MIGS/MIMS规范的形式。MIGS/MIMS扩展了INSDC已捕获的最小信息。最近引入的MIMARKS现在可以捕获关于标记基因的信息。此外,我们还引入了“环境包”,标准化描述特定栖息地的测量和观察数据集,这些数据集适用于所有GSC清单以及更广泛的领域。我们将“环境”定义为任何发现样本或生物体的地点,例如,土壤、空气、水、与人类相关、与植物相关或实验室。原始的MIGS/MIMS清单包括关于样本来源地点和序列数据生产方式的相关数据。然而,标准描述了更广泛的环境参数范围,这有助于更好地确定样本的环境,但没有包括在内。这里提出的环境包适用于已知来源的任何基因组序列,并设计成与MIGS、MIMS和MIMARKS清单结合使用。
为了创建一个单点访问GSC的所有最小信息清单和环境包,我们创建了一个总框架,即MIxS标准。MIxS包括以前MIGS和MIMS标准的技术特定清单,提供了一种引入额外清单(如MIMARKS)的方式,并允许使用环境包对样本数据进行注释。
主要数据提供者、组织以及INSDC采用GSC标准支持了序列数据环境丰富的努力,并补充了最近丰富其他(元)组学数据的努力。MIxS标准已发展到可以用于序列发表的阶段。定义了请求新功能的过程和稳定的发布周期,将促进标准在社区中的应用。作者之间的合规性、期刊的采用以及生物信息学资源的使用将极大地提高我们共同挖掘和整合宝贵序列数据集的能力,以推动知识和应用研究。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。