跳转到主要内容

一种基于外显子或基因组测序数据诊断脊髓性肌萎缩(SMA)的工具

项目描述

SMA Finder

SMA Finder是一个基于Illumina外显子、基因组或靶向测序数据诊断脊髓性肌萎缩(SMA)的工具。
它以参考序列(FASTA)和1个或多个比对文件(CRAM或BAM)作为输入,评估SMN1SMN2在c.840位点的读取,以检测SMA最常见的分子原因,并报告是否发现了SMN1的完全丢失。

它已在短读数据上进行了测试和确认,这些数据与GRCh37、GRCh38或T2T对齐,并使用BWA对齐器进行对齐,准确性非常高。

限制

  • 不报告SMA携带者状态或SMN1/SMN2拷贝数
  • 不检测由不涉及c.840位点的SMN1失活突变引起的约5%的病例
  • 为了做出调用,至少需要14个读取重叠SMN1SMN2中的c.840位置
  • 是在来自全血DNA的Illumina短读测序数据上开发和测试的。在其他测序技术、样本类型和对齐管道中的性能未知。

安装

python3 -m pip install sma-finder

示例

示例命令

sma_finder --verbose --hg38-reference-fasta /ref/hg38.fa  sample1.cram

命令输出

Input args:
    --hg38-reference-fasta: /ref/hg38.fa
    --output-tsv: sample1.sma_finder_results.tsv
    CRAMS or BAMS: sample1.cram
---
Output row #1:
        filename_prefix                     sample1
        file_type                           cram
        genome_version                      hg38
        sample_id                           s1
        sma_status                          has SMA
        confidence_score                    168
        c840_reads_with_smn1_base_C         0
        c840_total_reads                    174
Wrote 1 rows to sample1.sma_finder_results.tsv        

用法

用法帮助文本

sma_finder --help

usage: sma_finder.py [-h] [--hg37-reference-fasta HG37_REFERENCE_FASTA]
                     [--hg38-reference-fasta HG38_REFERENCE_FASTA]
                     [--t2t-reference-fasta T2T_REFERENCE_FASTA]
                     [-o OUTPUT_TSV] [-v]
                     cram_or_bam_path [cram_or_bam_path ...]

positional arguments:
  cram_or_bam_path      One or more CRAM or BAM file paths

optional arguments:
  -h, --help            show this help message and exit
  --hg37-reference-fasta HG37_REFERENCE_FASTA
                        HG37 reference genome FASTA path. This should be
                        specified if the input bam or cram is aligned to HG37.
  --hg38-reference-fasta HG38_REFERENCE_FASTA
                        HG38 reference genome FASTA path. This should be
                        specified if the input bam or cram is aligned to HG38.
  --t2t-reference-fasta T2T_REFERENCE_FASTA
                        T2T reference genome FASTA path. This should be
                        specified if the input bam or cram is aligned to the
                        CHM13 telomere-to-telomere benchmark.
  -o OUTPUT_TSV, --output-tsv OUTPUT_TSV
                        Optional output tsv file path
  -v, --verbose         Whether to print extra details during the run

输出

输出文件 .tsv 每行对应一个输入的 CRAM 或 BAM 文件,包含以下列:

filename_prefix CRAM 或 BAM 文件名前缀。如果输入文件是 /path/sample1.cram,则此前缀为 "sample1"
file_type "cram""bam"
genome_version "hg37""hg38""t2t"
sample_id 来自 CRAM 或 BAM 文件头的 sample id(从读组元数据中解析得出)
sma_status 可能的值为
"has SMA"
"does not have SMA"
"SMN c.840 位置覆盖不足"
confidence_score PHRED 比例的整数分数,衡量 sma_status 正确的置信水平。分数越高,置信度越高。其计算方式与 GATK HaplotypeCaller 基因型中的 PL 字段类似。
c840_reads_with_smn1_base_C 在 SMN1 加 SMN2 的 c.840 位置具有 'C' 核苷酸的读取数量
c840_total_reads 重叠在 SMN1 加 SMN2 的 c.840 位置的读取总数


合并多个样本的结果

在许多样本上运行 SMA Finder 后,通常需要将每个样本的输出表合并为一个单一的表格。以下 shell 命令是一种合并方式:

combined_table_filename=combined_results.tsv
head -n 1 $(ls *.tsv | head -n 1) > ${combined_table_filename}   # get table header from the 1st table 
for i in *.tsv; do
    tail -n +2 $i >> ${combined_table_filename}    # concatenate all tables
done

绘制合并结果

可以使用 plot_SMN1_SMN2_scatter 命令生成总结多个样本读取计数的散点图

python3 plot_SMN1_SMN2_scatter.py --format svg --format png ${combined_table_filename}

它生成类似于以下图表的图形,该图表基于一个包含 16,626 个外显子的神经肌肉队列

image

详细信息

本 SMA Finder 海报在 SVAR22 会议中展出

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

sma_finder-1.4.4.tar.gz (13.6 kB 查看哈希值)

上传

构建分布

sma_finder-1.4.4-py3-none-any.whl (14.2 kB 查看哈希值)

上传 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面