Hi-C引导基因组组装
项目描述
Hi-C构建工具,将contigs/scaffolds组装成完整的染色体
此软件使用Hi-C测序数据将contigs/scaffolds组装成完整的染色体。组装过程包括以下步骤
创建修正的Hi-C接触矩阵
检测误组装(自动和/或手动)
创建初始路径图
迭代连接高置信度的scaffold路径
添加尚未使用的scaffold
保存scaffold fasta文件和liftover链文件
HiCAssembler会自动可视化组装过程,以告知用户组装状态

安装
HiCAssembler与python 2.7兼容,并要求已安装[HiCExplorer](https://hicexplorer.readthedocs.io/)
要安装HiCAssembler,请使用pip。
`bash $ pip install HiCAssembler `
如果您想安装最新版本,请使用
`bash $ pip install git+https://github.com/maxplanck-ie/HiCAssembler.git `
用法
在运行HiCAssembler之前,需要创建一个修正后的h5格式的Hi-C矩阵。这种文件格式是HiCExporer生成的输出(http://hicexplorer.readthedocs.io/)。需要对Hi-C进行映射到预先组装的contigs/scaffolds,然后创建和修正Hi-C矩阵。HiCExporer的这些步骤的示例用法可以在http://hicexplorer.readthedocs.io/en/latest/content/example_usage.html找到。
之后,您可以使用HiCAssembler开始将预先组装的contigs/scaffolds组装成染色体。
`bash $ assemble -m Hi_C_matrix_corrected.h5 -o ./assembly_output \ --min_scaffold_length 100000 --bin_size 5000 --misassembly_zscore_threshold -1.0 \ --num_iterations 3 --num_processors 16 `
–min_scaffold_length 100000 设置预先组装scaffolds的最小长度为100 kb。小于100 kb的scaffolds将在迭代修正后添加。
–bin_size 5000 设置Hi-C的bin大小为5 kb。这将是在算法描述中提到的高分辨率bin的大小。
–misassembly_zscore_threshold -1.0 设置决定TAD分离分数是否足够强以被认为是误组装的阈值。
–num_iterations 3 设置组装迭代次数为3。
如果最终结果包含组装错误,您可以手动进行修正。可以通过指定组装错误的位置并将其作为使用–split_positions_file split.bed参数在组装前切割预先组装的contigs/scaffolds的位置来添加。可以通过使用工具plotScaffoldInteractive来识别预先组装的contigs/scaffolds中错误的精确位置。
`bash $ plotScaffoldInteractive scaffold_123 `
通过将光标移至其上显示组装错误的位置。
引用
Prepring in preparation
示例
(在data/文件夹中可以找到一个小的修正后的Hi-C矩阵)
组装几个scaffolds的最小示例
`bash $ assemble -m /data/hic_small.h5 -o ./assembly_output \ --min_scaffold_length 100000 --bin_size 5000 --misassembly_zscore_threshold -1.0 \ --num_iterations 3 --num_processors 16 `
组装的每个步骤都会自动进行可视化。

现在,让我们看看带有和不带有误组装的scaffolds是什么样子

组装错误可以很容易地检测为Hi-C信号的突然变化。正如这里所示,HiCAssembler自动在Hi-C分数的最小值处分割scaffolds。

具有低TAD分离分数的强TAD边界可能被错误地认为是误组装。需要使用–misassembly_zscore_threshold参数选择分割scaffolds的分数阈值。需要在过多的分割导致分割后非常小的scaffolds和过多的遗留误组装之间找到一个平衡。我们确定-1的分数作为组装的起始点是一个好的选择,但我们建议测试几种设置。一些scaffolds将在TAD边界处分割。这没问题,因为它们将在之后的组装过程中再次连接。
如果并非所有误组装都自动分割,可以使用–split_positions_file split.bed参数手动添加分割。可以通过使用工具plotScaffoldInteractive来识别预先组装的contigs/scaffolds中错误的精确位置。
`bash $ plotScaffoldInteractive scaffold_123 `
通过将光标移至其上显示组装错误的位置。
项目详情
HiCAssembler-1.1.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8fc4e49c11454d17eb7e6e8a835515077afd4abceb7b6c1b5080780b428f46e2 |
|
MD5 | 086d39f2f7631ba0a9f96fbc24220322 |
|
BLAKE2b-256 | ec1e83f428ebc7b53abab7098c42c107536a088c2d8707baa3df26c229d77a37 |