分析短串联重复序列(STRs)的实用工具
项目描述
此存储库包含分析串联重复序列(TRs)的脚本和实用工具。
安装
要使用pip安装最新版本,请运行
python3 -m pip install --upgrade git+https://github.com/broadinstitute/str-analysis.git
或使用docker镜像(尽管它可能没有最新版本的代码)
docker run -it weisburd/str-analysis:latest
工具
-
call_non_ref_motifs (文档) - 接受一个bam/cram文件,以及可选的ExpansionHunter变异目录。然后,对于每个位点,它确定哪些STR基序由重叠该位点的读段支持,在运行ExpansionHunter对检测到的基序(s)执行之前。
-
filter_vcf_to_STR_variants - 接受单个样本VCF文件,并通过在每个变异的插入或删除基序上执行暴力k-mer搜索,过滤出代表串联重复扩展或收缩的INS/DEL变异。此工具是Weisburd, B.,Tiao, G. & Rehm, H. L. Insights from a genome-wide truth set of tandem repeat variation. (2023)的核心部分。
-
merge_loci - 接受一个或多个STR目录,并将它们合并成一个目录,同时根据重叠和重复基序删除重复项。
-
annotate_and_filter_str_catalog - 接受一个STR目录,并根据其与基因的重叠以及已知与疾病相关的STR进行注释。然后允许根据基序大小、基因区域和其他标准进行过滤。
和 -
compute_catalog_stats - 接受由annotate_and_filter_str_catalog脚本输出的注释目录,并计算关于它的各种汇总统计信息。
-
add_offtarget_regions - 接收一个ExpansionHunter变异数据库,通过查询针对每个TR基序预先计算的目标外区域数据库,为每个位点的定义添加一个目标外区域列表。该数据库是通过使用wgsim模拟每个基序的全重复读数,然后使用bwa对它们进行比对,在hg19和hg38上记录这些读数映射的位置生成的。
-
add_adjacent_loci_to_expansion_hunter_catalog - 接收一个ExpansionHunter变异数据库和一个包含参考基因组中所有简单重复的bed文件。输出一个新的数据库,其中包含更新的LocusStructures和ReferenceRegions,这些结构包括输入数据库中每个位点的附近重复。
-
check_trios_for_mendelian_violations - 接收由
combine_str_json_to_tsv
生成的组合ExpanssionHunter调用表以及一个包含父母/子女关系的FAM或PED文件,并输出调用集中的孟德尔违规表。 -
simulate_str_expansions - 使用wgsim生成包含给定位点上STR扩展的模拟读数的.bam文件,并具有给定的重复次数、基序、同合子性等。
-
ExpansionHunterDenovo输出后处理
- annotate_EHdn_locus_outliers - 接收一个ExpansionHunterDenovo异常结果表(位点异常或病例对照)以及一个包含参考基因组中所有简单重复的bed文件和可选的基因模型GTF文件、已知疾病相关位点的变异目录和/或其他感兴趣的基因组区域bed文件。输出一个新表,其中每个EHdn异常都通过多个与提供的参考数据相关的列进行注释。
- convert_annotated_EHdn_locus_outliers_to_expansion_hunter_catalog - 接收annotate_EHdn_locus_outliers的输出表,并允许用户在将传递的位点写入ExpansionHunter变异数据库之前应用一系列过滤器。
-
gnomAD STR调用
- generate_gnomad_json - 用于将gnomAD STR调用合并到gnomAD网站上的可下载文件中。
-
后处理和合并ExpansionHunter输出
- combine_str_json_to_tsv - 接收一组ExpansionHunter json输出文件并将它们合并成一个单一的tsv表。
- combine_json_to_tsv - 接收一组具有相同模式的任意json文件,并将它们的顶层字段合并到一个单一的tsv文件中。
- copy_EH_vcf_fields_to_json - 接收给定样本的ExpansionHunter输出vcf和json文件,并将仅存在于vcf中的字段复制到json文件中。
- run_reviewer - 接收单个样本的ExpansionHunter输出文件,并在变异数据库中指定的位点特定阈值超过的子集中运行REViewer。
-
格式转换器
- convert_bed_to_expansion_hunter_variant_catalog
- convert_expansion_hunter_variant_catalog_to_gangstr_spec
- convert_expansion_hunter_variant_catalog_to_hipstr_format
- convert_expansion_hunter_variant_catalog_to_trgt_catalog
- convert_expansion_hunter_variant_catalog_to_longtr_format
- convert_gangstr_spec_to_expansion_hunter_variant_catalog
- convert_expansion_hunter_denovo_locus_tsv_to_bed
- convert_gangstr_vcf_to_expansion_hunter_json
- convert_hipstr_vcf_to_expansion_hunter_json
- convert_strling_calls_to_expansion_hunter_json
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源代码分发
构建分发
str_analysis-1.2.10.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | e69b16c5174339557e5ab8cbcacef9baf0581565587fc54dd45d6586ad2637a5 |
|
MD5 | 0070789242c85817a13bac7e6eba36d2 |
|
BLAKE2b-256 | 1406cd97c3c7364d3da44d540c47690edf7b2e7a362aef7c23d4560a1a9d1bd5 |
str_analysis-1.2.10-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f2e80fd84670740c5d81d32a751e9b2035723ad8cf249489b9a53ae846582707 |
|
MD5 | 39bd25b0d7c7032bc4b7ef672bc46f34 |
|
BLAKE2b-256 | ab7d2e64784cdf270af3e56ae49a8f5dddd731fa03f1c7934f8530dc73e519b6 |