综述-测序时代的结构变异
in 文献阅读 with 0 comment

综述-测序时代的结构变异

in 文献阅读 with 0 comment

该文大部分来自Nature Reviews Genetics的综述“Structural variation in the sequencing era” 的翻译,详细内容请阅读原文

摘要

鉴定结构变异对于进一步了解基因组的特征至关重要。但由于之前的基因组测序技术具有明显的局限性,鉴定结构变异一直是一个难题。随着第三代单分子测序和相关鉴定算法的发展,以使数百万SV的鉴定成为可能。研究发现,SV与疾病和一些生物机制的调控密切相关。鉴于SV的类型和大小的多变性,以及新的基因组技术的检测偏差,因此,解决多平台间造成的差异,构造较为一致的结构变异图谱很有必要。作者回顾了当前鉴定SV的方法,并提出将生物学信息与SV结合起来将对全面了解SV对人类基因组的影响是很必要的。

引言

个体间遗传变异一般分为两种,一类是长度<50bp的,包括单核苷酸变异( single- nucleotide variants, SNVs)和小的插入和删除(indels);另一类是> 50 bp的结构变异( structural variations,SVs)。进一步可以将SV细分为非平衡的拷贝数变异(CNVs),包括插入,删除和重复;以及平衡的重排,包括倒位和染色体内及染色体间的易位。此外,SV还包括转座子插入,拷贝数高度可变的多等位基因CNV,片段重复和复杂重排。

相较于SNV等鉴定的准确性和研究的广泛性,SV的鉴定和分析却远远落后,这是由于SV的鉴定不准确并且对应的参考基因组也缺乏多样性,样本量和测序深度。随着新的测序技术和SV鉴定算法的发展,使得集合多个软件来从多种测序技术的数据中鉴定SV成为可能。

多策略整合

SV的检测策略一般包括4种:Read-pair,Read-depth,Split-read,Sequence assembly,关于其详细的介绍可参考这篇文章:一篇文章说清楚基因组结构性变异检测的方法。然而,现有的大多数软件采用的为单一的检测策略,因此不能很好的全面检测结构变异。所以,比较好的方式就是进行多策略多工具整合,以全面检测结构变异。但这样又会带来一个问题,多个软件的结果如何合并和过滤,作者根据已有的研究,总结了主要的几个标准,包括断点置信区间重叠情况,断点距离,鉴定错误率的大小,采取的鉴定策略优先级,鉴定结果的一致性等,几乎所有的整合工具都考虑了SV的坐标是否重叠,总结一下也就是下面这张图:

现有的整合多种策略进行SV鉴定的工具(针对二代测序数据)有如下几个:

这些整合多策略的工具仍然有其局限性,主要是由二代短读长数据导致,大片段的结构变异无法准确检测到,仅能检测重复区域之外的小片段的SV。

新兴的基因组技术

关联分子策略

合成的长reads

合成长reads测序技术有很多,包括合并克隆测序,Illumina合成长reads测序,10x Genomics reads连接测序等。这种长reads很适合用来鉴定SV,由于低错误率和读长较长(多达100kb),因此很多时候用来构建单体型。利用这种数据鉴定SV的方法有Long Ranger,GROC- SVs,LinkedSV,NAIBR,VALOR2,ZoomX,详细见下表:

链特异性测序

该方法仅对双链中的模板链进行测序,因只含一条链,故该方法可以用来构建单倍型。该测序方法可以用于检测倒位,大片段的缺失和重复等,相应地检测工具有BAIT和Invert.R。

Hi-C

Hi-C的reads长度可以达到Mbp级别,从而使得其适合用于检测大片段的SV,尤其是易位,检测出的SV片段大小一般大于2Mb。然而由于reads长度太长,Hi-C并不适合检测小片段的SV。检测的工具主要包括HiCNV + HiCtrans,Hi-C Breakfinder。

单分子策略

PacBio单分子实时测序

检测SV的算法一般通过利用reads内部和reads之间的特征来检测SMRT数据中的SV。对于reads内部的特征,可以直接用来鉴定SV,一般是序列删除和插入。而对于reads之间的特征,可能涉及多个reads,相关检测工具一般是通过在reads与参考基因组比对后的结果中从reads方向,位置等的异常中检测出SV。采用这种方法的工具有CORGi,PBHoney,pbsv,Sniffles,SMRT-SV,SVIM。

纳米孔测序

用于从ONT数据中检测SV的方法与PacBio数据中的类似,工具主要包括 NanoSV, Picky, Sniffles,SVIM。有研究表明,ONT数据的检测SV工具对于小片段的SV的检测并不准确,所以,ONT数据并不适用于检测小片段SV(< 200bp)。

光学图谱

光学图谱系统基于单分子光学图谱技术,通过其特有的芯片技术使完整的单一DNA分子可以在纳米通道中平行排列,拍照成像,可以展示更完整的基因图谱。通过将光学图谱上的标记于已酶切的参考基因组比较来鉴定SV:缺失或多余的标记以及标记间的距离可以用来确定是否有缺失或插入;重复的标签表明有序列重复;非参考序列上存在独特的切口表示有易位;切口反向表示有倒位。光学图谱生成的片段一般长达1Mb,从而使得其适合于检测大片段的重排和插入,也可检测重复区域中的。由于光学图谱产生的片段是酶切过的,所以检测SV的分辨率很难达到碱基级别。由于光学图谱的成本较低,所以在只是检测一些大片段的SV时选光学图谱还是一个不错的选择。相应的检测工具主要包括 OMSV,Bionano Solve。

多平台数据联用

利用多个平台产生的数据来检测SV,这方面的工具主要有两个:MultiBreak- SV,HySA。

复杂SV的检测

有一些工具也可以用来检测一些复杂的SV,列举如下: 对于不同平台的数据,SV在其中的表现形式也不太相同,作者为此进行了总结:

将SV与生物学信息结合

SV不只是检测完就这么简单,还需要阐明发生SV背后的生物学机制以及造成的影响,这就需要将鉴定到的SV与现有的生物学信息(包括基因表达,表观遗传和三维基因组结构)结合起来综合分析,才能达到最终的研究目的。有研究就发现,SV比SNV和indels对基因表达的影响要大很多。作者也进行了相关总结,以帮助理如何将SV与其他生物学数据结合分析。 更多更详细的内容还请阅读文章原文。

参考

Ho, S.S., Urban, A.E. & Mills, R.E. Structural variation in the sequencing era. Nat Rev Genet (2019) doi:10.1038/s41576-019-0180-9