基于short reads的结构变异鉴定工具的综合评价
in 生信工具 with 0 comment

基于short reads的结构变异鉴定工具的综合评价

in 生信工具 with 0 comment

本文的部分内容来源于“Comprehensive evaluation and characterisation of short read general-purpose structural variant calling software”这篇文章,如有兴趣,可阅读文章原文。

摘要

近年来,已经发布了许多使用全基因组测序数据来鉴定SV的软件包。在发布时,通常将一种新工具与已有的工具进行比较,但这种比较往往是选择性的. 由于没有全面的对这些工具进行比较分析, 这也给用户带来了一些选择困难. 因此, 文章对10个SV鉴定工具进行了综合评估,这些评估的工具都是经过了严格的选择的,并且使用高质量的测序数据以及模拟方法。由于可用数据集的性质,文章主要重点是通用的SV鉴定工具而非体细胞SV鉴定工具。文章分析了SV事件大小和类型,测序数据特点和基因组特征对SV工具性能的影响,并分析鉴定结果和SV鉴定质量。最后,文章还为用户和相关开发人员提供了一些建议。

主要结果

工具的选择

文章中选择了自2010年以来发表的高引用率的SV鉴定工具且适用于一般的SV鉴定, 排除了那些仅适用于正常组织和肿瘤组织配对数据的工具, 最后仅筛选出10个工具用于进一步的比较评价分析.

对一些明确特征的细胞系数据的总体性能

该部分分析的主要结论是, 与单核苷酸变异(SNV)的鉴定不同,SV鉴定工具鉴定变异的合子的鲁棒性很好,并且变异单倍型的覆盖率是SV鉴定的决定因素。数据集之间鉴定率的巨大差异可以归因于所使用的数据集的全面性。

对理想数据集的性能评价

在对每个工具在不同的SV事件大小, 不同SV类型和测序参数进行全面的多维模拟后, 如果检测大的插入, 需要从头进行组装才能检测出,而检测小的SV事件则需要进行SR分析或组装。对于基于PE的工具,reads长度和片段大小之间的相互作用非常复杂:增加reads长度,减小片段中值长度和缩小片段大小分布都可以检测到较小的SV事件.

一些工具并不能鉴定出所有的SV类型, 比如CREST, DELLY, HYDRA 和 LUMPY就不能鉴定出倒位和串联重复. 对于任何SV类型和片段大小, cortex和CREST都没有较好的检测灵敏度, 而Pindel无法检测到1kb的缺失和2kb的重复.

序列前后和事件大小对检测准确性的影响

在所有的工具中,靠近断点的SNV或插入/缺失的存在与检测精度相关:与两个或多个较小的变异相比,具有两个或多个较小变异的工具具有更高的FDR。同样,在低复杂度,简单或短串联重复(STR)区域中发生的SV对所有工具的准确性都较低。总体来说, 工具通常不受DNA,LINE和SINE等重复序列的影响,在LTR重复序列区域中FDR升高.

运行时间评估

如果工具是基于组装的策略进行鉴定SV, 那么速度一般是较慢的, 如果是其他的鉴定策略, 那么速度则会较快.

讨论

作者对于用户和开发人员给出了一些选择, 使用SV工具和开发SV工具的一些意见和建议, 这里仅列举下对于用户的建议:

相关脚本

所有的脚本可以在GitHub上找到.

一些SV检测工具列举如下:




参考