未提供项目描述
项目描述
PhEval - 表型推断评估框架
概述
缺乏标准化的基准和数据标准化对变异和基因优先级算法(VGPAs)来说是一个重大挑战。为了解决这个问题,我们开发了PhEval,这是一个旨在简化包含表型数据的VGPAs评估的全新框架。PhEval提供了几个关键好处
- 自动化流程:通过自动化各种评估任务来减少人工努力,从而提高效率。
- 标准化:确保评估方法的连贯性和可比性,从而实现更可靠和标准化的评估。
- 可重复性:通过提供标准化的平台,促进研究的可重复性,允许对算法进行一致的验证。
- 全面基准测试:允许对算法进行全面基准测试,提供有充分依据的比较,并深入了解其性能。
PhEval是研究人员通过结构化和标准化的方法提高VGPAs评估准确性和可靠性的宝贵工具。
如需更多信息,请参阅完整的文档。
下载和安装
- 请确保已安装Python 3.8或更高版本。
- 使用
pip
安装
pip install pheval
- 查看所有PhEval实用命令列表
pheval-utils --help
用法
PhEval CLI提供各种命令,分为两大类:运行器实现和实用命令。以下是对每个类别的概述,详细说明如何利用它们在PhEval中执行各种任务。
运行器实现
PhEval中使用的首要命令是pheval run
。该命令负责执行具体的VGPA运行器实现,我们有时将其称为插件。通过使用pheval run,用户可以利用这些运行器实现来:在测试语料库上执行VGPA、生成特定工具的结果输出,以及将特定工具的输出后处理为PhEval标准化的TSV输出。
一些具体的PhEval运行器实现包括Exomiser运行器和Phen2Gene运行器。目前实现的运行器完整列表可以在此找到这里
请阅读文档,了解创建自己的PhEval插件的步骤。
实用命令
除了主要的run
命令外,PhEval还提供了一组旨在增强CLI整体功能的实用命令。这些命令可以用来设置和配置实验、简化数据处理,并基准测试各种VGPA运行器实现的性能。通过利用这些工具,用户可以优化他们的实验流程,确保可重复性,并比较不同方法的效率和准确性。实用命令提供了一系列选项,方便用户根据不同的研究目标进行定制和微调。
示例用法
为了向现有的phenopackets语料库添加噪声,这可以用来评估VGPAs在引入不太相关或不可靠表型数据时的鲁棒性
pheval-utils scramble-phenopackets --phenopacket-dir /phenopackets --scramble-factor 0.5 --output-dir /scrambled_phenopackets_0.5
为了更新基因符号和标识符到特定命名空间
pheval-utils update-phenopackets --phenopacket-dir /phenopackets --output-dir /updated_phenopackets --gene-identifier ensembl_id
为了为phenopackets语料库准备VCF文件,在已知致病性变异中添加
pheval-utils create-spiked-vcfs --phenopacket-dir /phenopackets --hg19-template-vcf /template_hg19.vcf --hg38-template-vcf /template_hg38.vcf --output-dir /vcf
或者,您可以将所有语料库准备命令封装为单个步骤。指定--variant-analysis
/--gene-analysis
/--disease-analysis
将检查phenopackets是否包含记录已知实体的完整记录。如果提供了模板VCF文件,这将向语料库的VCF文件中添加已知变异。如果指定了--gene-identifier
,则更新phenopackets语料库。
pheval-utils prepare-corpus \
--phenopacket-dir /phenopackets \
--variant-analysis \
--gene-analysis \
--gene-identifier ensembl_id \
--hg19-template-vcf /template_hg19.vcf \
--hg38-template-vcf /template_hg38.vcf \
--output-dir /vcf
请参阅文档,了解基准测试和评估各种VGPAs性能的说明。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。