跳转到主要内容

分析短串联重复序列(STRs)的实用工具

项目描述

此存储库包含分析串联重复序列(TRs)的脚本和实用工具。

安装

要使用pip安装最新版本,请运行

python3 -m pip install --upgrade git+https://github.com/broadinstitute/str-analysis.git

或使用docker镜像(尽管它可能没有最新版本的代码)

docker run -it weisburd/str-analysis:latest

工具

  • call_non_ref_motifs (文档) - 接受一个bam/cram文件,以及可选的ExpansionHunter变异目录。然后,对于每个位点,它确定哪些STR基序由重叠该位点的读段支持,在运行ExpansionHunter对检测到的基序(s)执行之前。

  • filter_vcf_to_STR_variants - 接受单个样本VCF文件,并通过在每个变异的插入或删除基序上执行暴力k-mer搜索,过滤出代表串联重复扩展或收缩的INS/DEL变异。此工具是Weisburd, B.,Tiao, G. & Rehm, H. L. Insights from a genome-wide truth set of tandem repeat variation. (2023)的核心部分。

  • merge_loci - 接受一个或多个STR目录,并将它们合并成一个目录,同时根据重叠和重复基序删除重复项。

  • annotate_and_filter_str_catalog - 接受一个STR目录,并根据其与基因的重叠以及已知与疾病相关的STR进行注释。然后允许根据基序大小、基因区域和其他标准进行过滤。

  • compute_catalog_stats - 接受由annotate_and_filter_str_catalog脚本输出的注释目录,并计算关于它的各种汇总统计信息。

  • add_offtarget_regions - 接收一个ExpansionHunter变异数据库,通过查询针对每个TR基序预先计算的目标外区域数据库,为每个位点的定义添加一个目标外区域列表。该数据库是通过使用wgsim模拟每个基序的全重复读数,然后使用bwa对它们进行比对,在hg19和hg38上记录这些读数映射的位置生成的。

  • add_adjacent_loci_to_expansion_hunter_catalog - 接收一个ExpansionHunter变异数据库和一个包含参考基因组中所有简单重复的bed文件。输出一个新的数据库,其中包含更新的LocusStructures和ReferenceRegions,这些结构包括输入数据库中每个位点的附近重复。

  • check_trios_for_mendelian_violations - 接收由combine_str_json_to_tsv生成的组合ExpanssionHunter调用表以及一个包含父母/子女关系的FAM或PED文件,并输出调用集中的孟德尔违规表。

  • simulate_str_expansions - 使用wgsim生成包含给定位点上STR扩展的模拟读数的.bam文件,并具有给定的重复次数、基序、同合子性等。

  • ExpansionHunterDenovo输出后处理

    • annotate_EHdn_locus_outliers - 接收一个ExpansionHunterDenovo异常结果表(位点异常或病例对照)以及一个包含参考基因组中所有简单重复的bed文件和可选的基因模型GTF文件、已知疾病相关位点的变异目录和/或其他感兴趣的基因组区域bed文件。输出一个新表,其中每个EHdn异常都通过多个与提供的参考数据相关的列进行注释。
    • convert_annotated_EHdn_locus_outliers_to_expansion_hunter_catalog - 接收annotate_EHdn_locus_outliers的输出表,并允许用户在将传递的位点写入ExpansionHunter变异数据库之前应用一系列过滤器。
  • gnomAD STR调用

    • generate_gnomad_json - 用于将gnomAD STR调用合并到gnomAD网站上的可下载文件中
  • 后处理和合并ExpansionHunter输出

    • combine_str_json_to_tsv - 接收一组ExpansionHunter json输出文件并将它们合并成一个单一的tsv表。
    • combine_json_to_tsv - 接收一组具有相同模式的任意json文件,并将它们的顶层字段合并到一个单一的tsv文件中。
    • copy_EH_vcf_fields_to_json - 接收给定样本的ExpansionHunter输出vcf和json文件,并将仅存在于vcf中的字段复制到json文件中。
    • run_reviewer - 接收单个样本的ExpansionHunter输出文件,并在变异数据库中指定的位点特定阈值超过的子集中运行REViewer。
  • 格式转换器

    • convert_bed_to_expansion_hunter_variant_catalog
    • convert_expansion_hunter_variant_catalog_to_gangstr_spec
    • convert_expansion_hunter_variant_catalog_to_hipstr_format
    • convert_expansion_hunter_variant_catalog_to_trgt_catalog
    • convert_expansion_hunter_variant_catalog_to_longtr_format
    • convert_gangstr_spec_to_expansion_hunter_variant_catalog
    • convert_expansion_hunter_denovo_locus_tsv_to_bed
    • convert_gangstr_vcf_to_expansion_hunter_json
    • convert_hipstr_vcf_to_expansion_hunter_json
    • convert_strling_calls_to_expansion_hunter_json

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

str_analysis-1.2.10.tar.gz (388.9 kB 查看哈希值)

上传时间 源代码

构建分发

str_analysis-1.2.10-py3-none-any.whl (621.3 kB 查看哈希值)

上传时间 Python 3

由以下支持