新闻动态

不用在读长和准确性之间做选择题,PacBio发表新

不用在读长和准确性之间做选择题,PacBio发表新

点击下载附件附件

​ 研究人员的梦想是拥有既长又准确的测序读数。如今,PacBio研究团队对现有的单分子实时测序(SMRT)技术进行了调整,让人们离这个目标又近了一步。  

从一开始,研究人员似乎就面临着艰难的选择。一边是Illumina产生的短序列,高度准确但读长很短,另一边则是Pacific Biosciences和Oxford Nanopore产生的长序列,但准确性却无法让人满意。研究人员的梦想是拥有既长又准确的测序读数。

如今,PacBio研究团队对现有的单分子实时测序(SMRT)技术进行了调整,让人们离这个目标又近了一步。这篇题为“Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome”的论文于本周发表在《Nature Biotechnology》杂志上。

“文章首次介绍了一种方法,能够产生既长又准确的读长,”PacBio生物信息学首席科学家Aaron Wenger指出,他也是这篇论文的第一作者。这种新方法是基于PacBio的环状一致性测序(CCS)模式。

PacBio的CCS系统是在线性DNA分子的两端连接发夹结构的接头,以形成SMRTbell模板。聚合酶从接头处出发,不断添加碱基,产生序列读数。它通过这种方式在两个接头之间来回走动,产生HiFi(高保真)读数。通常,CCS不被认为是长读长技术。Wenger指出,这种高准确性的代价就是读长只有1-2 kb。不过,他们如今利用CCS方法生成了长度超过10 kb的准确读数。

他们是如何做到的呢?Wenger表示,文中提到的一个关键创新点是“预延伸”。由于PacBio测序依赖于不断拍照的相机(就像电影一样),聚合酶之间都是彼此独立的。它们不断添加核苷酸,直至失去活性。

聚合酶脱落有各种原因,通常是因为DNA受损。为此,PacBio将重点放在DNA质量上。他们设计出一种方法,最大限度减少受损DNA的上样机会。Wenger表示,他们在上样DNA之前就开始测序反应,延伸几小时之后,如果聚合酶仍然存在,则可断定DNA没有受损。选择性地上样DNA是利用CCS方法产生长读数的关键。

此外,研究人员还利用SageELF仪器来确保所选DNA分子的大小相同。因为他们一旦知道分子的大小,就清楚预延伸的最佳持续时间。这种新颖的调整也是关键点,因为它能够让聚合酶在测序仪内部持续工作更长时间。

PacBio读数通常有着相当高的错误率(大约在15%,而Illumina在0.1%),但这些错误往往是随机的,因此如果相同的区域被测序多次,则会产生一致性(consensus)序列。比如说错误率为1%,测序深度为100X,那么99条读数可能都显示“A”,而有一条读数显示“G”。这时你就可以确定碱基是“A”而忽略“G”。

在这篇论文中,PacBio研究人员表示他们可以通过多次读取相同分子(平均约10次)来实现超高质量的PacBio测序。这意味着他们最终得到的CCS读数的错误率与Illumina读数大致相同,但长度却比Illumina读数要长得多。

通过这种方式,他们产生了高度准确(99.8%)的HiFi读数,平均长度在13.5 kb。他们用新方法对研究透彻的HG002/ NA24385人类基因组进行测序,发现单核苷酸变异(SNV)的检出率为99.91%,插入缺失(< 50 bp)为95.98%,而结构变异为95.99%。

许多研究人员对新方法表示期待,认为这是迈出了一大步。Inscripta公司的Deanna Church博士则提出了polish的问题,她想了解这种新方法是否仍然需要。polish是指将PacBio长读数与Illumina短读数结合起来。通常,将短的Illumina序列覆盖在长的PacBio序列上,对其进行polish,或找出错误在哪里。

Wenger表示,这种方法不需要polish。“这些读数的原始准确率在99.8%左右,这与短读数的准确性相似,”他说。不过,他也指出,尽管错误率相似,但错误类型不同。插入缺失可能是PacBio测序容易栽跟头的地方,这是由测序性质决定的。

既然这么优秀,为什么不是每个人都切换到这种技术?Ginkgo Bioworks的首席科学家Keith Robison认为,主要障碍在于成本。“每个PacBio流动槽只能提供这么多的读数,因此你只能选择大量质量较高的读数,或者选择少量质量超高的读数,”他指出问题在于实验室愿意支付多少费用,以较少的通量换取较多的变异信息。

未来,除了人类基因组学方面的应用,这种方法也有望应用在宏基因组学以及动植物基因组的组装上