知方号

知方号

转载:PCR重复的问题

转载:PCR重复的问题

原文出处:陈云地,http://www.biotrainee.com/thread-1382-1-1.html

一、什么是Duplicated Reads1谈到NGS数据的duplicated reads(暂且翻译为“重复数据”),我们通常会直观地认为:duplicated reads是在NGS文库构建过程中,由于PCR过度扩增导致同一个模板DNA片段被反复测序多次,得到一模一样的reads。

2但是这经不起推敲。仔细一想,就很困惑。PCR不就是用来产生重复数据的吗?否则不叫PCR了。除了PCR-free的文库构建方法以外,大部分NGS文库构建方法都有PCR步骤,难道说这些NGS数据都有问题?

这是不可能的。或许:PCR可以产生重复序列,但是不能额外多产生一条或多条。设一个基因组有A、B两个片段,PCR后,如果得到1000A+1000B,是正确的;如果得到1000A+1000A+1000B,多出来的1000A就是重复数据?问题是,PCR怎么会凭空多出来1000条片段A的测序reads呢?这要PCR出了什么样的问题,才能产生出这样的结果?

PCR是不会这样的。或许:A+B经过PCR后得到1500A+1000B,多出来的500条A是重复数据?这不就是大家常说的PCR bias吗?

到底什么是“过度扩增”呢?

3严格的定义是这样的:duplicated reads是PCR对同一个分子进行多次镜像复制的后果。判断是否为镜像分子的标准是:reads的起始和终止位置一样,起点和终点之间的碱基序列一样(不妨简称为“三一样”)。只要起点、终点、或者起点与终点之间的序列三者之中有一个不同,就是不同的分子,称为unique reads。镜像复制出来的分子个数与总分子数的比例就是duplication rate,duplication rate = 1 - unique reads / total reads。

4PCR本来就是用来镜像复制DNA片段的。对于最理想的NGS数据分析,难道要尽可能把所有通过PCR获得的子链的测序数据全部去除,要把PCR的效果完全消除,要还原到没有PCR的状态?

是的。设一个基因组有A、B两个片段,PCR后得到无论多少条reads,比如n・A+m・B条,在数据分析的时候,都只保留1条A和1条B(unique reads)用于组装,而去掉(n-1)条A和(m-1)条B。共有(n-1)条A和(m-1)条B被当成duplicatedreads看待,尽管它们是正常PCR的正常产物。

所以,目前的算法其实是一个简化的处理方案,把所有重复的reads都去掉了,留下完全不重复的reads。算法没有能力区分“假重复”(人为造成的重复序列方面的bias)和“真重复”(天然存在的重复序列)。

所以,对于NGS 数据而言,Duplicateddata是一个生物信息学概念,不是分子生物学概念;是人为规定的,不是文库构建、高通量测序等生化反应自然生成的。

二、影响duplicationrate的因素1模板分子种类的多样性(复杂度,complexity)。在循环次数相同和扩增效率相同的条件下,PCR起始时模板分子的多样性越多,PCR结束时镜像复制分子的数量就越少,比例就越低,dup rate就越低。NGS文库构建的PCR循环次数最好不要超过6个,以保证PCR产物具有足够的复杂度。

2模板分子碱基组成的多样性(复杂度,complexity)。碱基组成不一样,PCR难易程度不一样。容易PCR扩增的分子在测序数据中占优势。

3连接效率。在分子多样性相同和PCR条件相同的情况下,建库过程中模板与接头的连接效率越高,NGS数据的dup rate越低。

4片段化的长度和随机性。超声波随机打断和酶切随机打断,就是为了获得分子多样性。这里一定强调随机。用一种或者多种内切酶获得的DNA片段,其分子多样性不如随机打断。DNA片段的长度要适当。片段长度越小,导致PCR扩增越容易,加剧了PCR bias,最后引起PCR产物复杂度降低,dup rate升高。

5磁珠洗涤条件的严谨性。磁珠吸附DNA在本质上是电荷吸附。DNA序列不同,电荷密度不同。如果洗涤条件不严谨,就会造成磁珠吸附有偏好性,也就意味着分子多样性降低,影响dup rate。膜吸附也是同样的道理。

6探针杂交封闭的有效性。如果探针杂交时LINE、Alu等重复序列未能有效封闭,必然造成dup rate升高,有效数据降低。如果adaptor被未有效封闭,必然造成off target数据的比例升高。单位质量的DNA中,on target部分减少,势必造成on target部分中比例低的分子在测序数据中更容易减少或者缺失,即on target部分的分子多样性降低,影响dup rate。

7Cluster PCR。除了建库PCR,cluster在flowcell上的生成也是一个PCR过程。这个PCR容易被忽略。反方:1条模板经过ClusterPCR只能形成1个cluster,测出1条read。Cluster PCR不增加测序reads的数量,所以不影响dup rate。回答:cluster PCR如果造成cluster变少,则影响dup rate。原因是比例少的分子有可能不能产生cluster,造成唯一性分子数减少,进而影响dup rate。适当的cluster生成密度,不仅能够获得最佳的数据产量,也能够获得较低的dup rate。无论ILMN还是PGM平台,我们都希望cluster是单克隆(monoclonal)的,多克隆(Polyclonal)的cluster甚至是相互overlap的cluster都会被测序识别程序过滤掉,造成的直接影响就是cluster密度过高,数据产量降低,整张芯片的cluster多样性降低,造成dup rate升高。Cluster生成的第一步,是模板DNA分子与flowcell上的oligo杂交结合的过程。这个过程是随机事件。模板分子的多样性和复杂度越高,各种分子的比例越均一,dup rate就会越低。极端的情况就是每个cluster只是一种模板分子的单克隆,这个时候dup rate是最理想的。注:Illumina HiSeq X10之前的平台,flowcell上cluster的生成具有排他性,clusters可以长得挨在一起,但是不会相互重叠。只要其光学检测系统的分辨率足够,就不会有cluster信号的重叠。HiSeq X10之后的平台,flowcell上是打孔的,cluster长在孔里,生成多克隆cluster的可能性希望专家指教。

8试剂质量不好。比如SBS测序试剂出了问题,有可能造成WES的dup rate升高到30%。

9Dup rate跟探针的关系最小。极端的例子就是扩增子(PCR产物)测序,dup rate可以很高,但完全没有探针存在。探针杂交过程中最影响分子多样性的因素是探针分子与目标分子的比例,其次是杂交的时间。探针与目标分子的比例最低应该在100:1(一定的体积内,有体积的要求),高于这个比例,探针是能够将目标分子捕获的。目前的探针法NGS,这个比例是很高的,探针数量是高度冗余的。杂交法的目标是获得最多的分子包容性,获得最多的与参考序列不一样的序列。只有增加分子包容性,才能最大可能地包含变异的类型,因此探针分子要长,杂交时间要长。NGS杂交不是为了特异性,而是为了更高的产量,获得

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。