EN

业务相关咨询电话:

临床检测:400-605-6655
科研服务:400-706-6615
司法服务:400-900-2616
测序仪器:400-096-6988

前台电话:+86-755-36307888

传真:+86-755-36307273
客服邮箱:info@genomics.cn
媒体联络:media@genomics.cn
地址:深圳市盐田区北山工业区11栋(518083)

    新闻中心

新闻中心

及时播报华大科研、教育、产业等方面的相关资讯

首页 华大概况 新闻中心 集团动态 量子技术+生命科学!华大开发多倍体单体型组装量子算法

量子技术+生命科学!华大开发多倍体单体型组装量子算法

发布日期:2024/04/24

在拼图游戏中,将分散的碎片重新组合成一幅完整画面无疑是一项富有挑战性的任务,尤其是当碎片数量庞大时,难度更是成倍增加。

类似地,在基因组学的研究领域,每个生物体内都蕴藏着一份独特的遗传“蓝图”,这份蓝图决定了生物的特性和功能,由DNA序列精心编织而成。

科学家们通过先进的测序技术,能够获得大量的遗传信息,但这些信息往往被分解成数百万个微小的片段,就像被打乱的拼图碎片一样。

科学家们面临的挑战,就是将这些看似杂乱无章的片段重新拼凑起来,以还原生命的奥秘。在生物信息学中,这一过程被称为基因组组装,其目标是从分散的测序数据中重建出一幅完整的基因组图景。

对于多倍体生物来说,这项任务更是难上加难,因为它们拥有多套相似的染色体,这使得从众多混乱的片段中精确地拼出每一套染色体的“蓝图”变得极为复杂。这一复杂的过程被称为多倍体单体型组装。

多倍体单体型组装对于理解生物的遗传特性、揭示疾病的易感性、预测药物的反应性以及探索物种的进化历史具有极其重要的意义。然而,由于这一过程涉及的计算复杂度极高,且数据量巨大,因此精确地完成多倍体单体型组装任务一直是生物信息学领域中的一项重大挑战。

针对这一挑战,华大生命科学研究院的研究团队开发了利用量子计算技术求解单体型组装问题的新工具——VRP assembler。在未来成熟的量子计算技术支撑下,能够更快速地实现高质量的单体型组装。

经过研究分析,研究人员首先找到了针对单体型组装问题的高效建模方式,提出了能够应用于单倍体、二倍体和多倍体基因组组装的数学模型,还在人类主要组织相容性复合体(MHC)区域得到了高精度的单体型组装结果。

这一结果展现了量子计算在未来生命科学研究中的巨大潜力——通过助力复杂基因组的分析研究为精准医疗、生物多样性和进化研究提供更丰富的信息。相关研究成果于近日发表在国际方法类期刊《细胞报告方法》(Cell Reports Methods)。

Cell Reports Methods官网截图

该项研究通过以下步骤对量子计算如何进行多倍体单体型组装展开分析探索。

首先,想要得到完整的基因组并解码生命的“蓝图”,就需要将测序仪得到的测序读段以正确的顺序进行拼接。研究单倍体生物相对简单,只需要拼接一组序列;但对于二倍体和多倍体生物,情况要复杂得多,因为它们拥有两组或更多相似但不完全相同的DNA序列,这就如同要从一堆碎片中同时拼出几副画面相似的拼图。

在多倍体的任务中,等位基因的微小差异可能代表着重要的遗传信息。在单体型中,我们需要在分析测序读段时精细地分辨这些差别,正确地将它们分组并组装,确保每一组序列中每一个测序读段都被放置到正确位置。这一过程帮助科学家们准确地揭示遗传变异如何影响个体健康和疾病,对于精准医疗和个性化治疗具有重要意义。但同时,单体型的组装复杂度是巨大的,特别是当考虑到遗传信息的长度和复杂性时,即使是先进的计算技术和算法,也常常难以准确完成。

在这一问题上,研究人员创新性地利用了车辆路径规划问题的数学模型来编码单体型的组装问题。在该模型中,我们需要找到最佳的路径,让一系列的“车辆”访问所有的“客户”,并且最终返回出发点。每个“车辆”代表一个单体型中的一条DNA序列,而“客户”则代表序列中的测序读段。通过找到最佳路径规划,VRP assembler实际上是在找到将这些测序读段以正确顺序和方向组装起来的最佳方式。这一问题的复杂度是非常高的,将所有的解全部探索比对一遍的复杂度完全不亚于将整个宇宙中的原子一个个数一遍。

而量子计算技术的出现,提供了解决这一难题的新途径。其独特的并行计算能力使量子计算机在解决优化和搜索等大规模问题时,能够同时考虑多种可能的路径组合,从而在极短的时间内逼近最优解,展现出极大的速度优势。这种计算能力特别适合解决车辆路径规划这类组合优化问题,因为它可以快速地评估和比较成千上万种不同的组合方式,找到最佳的“客户”分组和“访问”顺序,进而使得 VRP assembler能够在巨量的可能性中,迅速而准确地找到每一条测序读段正确的位置。

研究团队在D- Wave量子退火设备(一种专用的量子计算机)上,对模拟的二倍体和三倍体基因组进行了小规模单体型组装,对比传统优化算法的耗时减少了三个数量级,是量子计算与生物信息学交叉领域的一个重要进展。

D-Wave量子退火设备在模拟的二倍体和三倍体上完成小规模概念验证[1]

为了进一步测试模型的准确性,研究团队使用本次开发的新工具VRP assembler对人类MHC区域约5百万碱基对长度的两条序列进行了单体型组装,结果显示错配率降低到接近理论极限,这对于识别遗传变异、理解它们如何影响健康具有重要意义。

量子计算的加速能力使VRP assembler能够快速处理大量的基因组数据,提供了一种在未来处理大规模基因组信息时既高效又准确的新方法。

VRP assembler 结合OR-Tools在人类MHC区域完成高精度单体型组装[1]

随着量子技术的持续发展和日益成熟,我们正迎来量子计算与生命科学深度融合的历史性契机。量子计算作为一种全新的计算范式,将有望突破后摩尔时代的算力限制,为生物学数据的维数灾难问题提供创新性的解决方案。在可预见的未来,量子技术将赋能生物信息处理、疾病机理探索以及新药开发等多个关键领域,推动生命科学研究的边界:

  • 量子生物信息学:

    量子算法能够高效处理复杂的高维生物信息数据(如基因组学、转录组学、蛋白质组学等),这将有助于研究人员更快速地识别疾病相关基因,理解复杂疾病的分子机制,并为精准医疗提供支持。

  • 量子模拟在生物系统研究中应用:

    量子计算能够以前所未有的精度和规模模拟生物分子和细胞内部的量子行为。

    通过量子计算,研究人员可以更深入地理解生物过程中的量子效应(如脑科学、光合作用等),推动生物学底层机制的研究。

  • 量子精密测量在生物检测中的应用:

    量子精密测量技术能够提供传统手段无法企及的测量精度,这在生物标志物的检测和疾病早期诊断中具有重要价值。

    量子传感器的应用有望实现更为精确和灵敏的医疗检测,提高疾病诊断的准确性。


本研究标志着量子计算在生命科学应用领域迈出了关键性的一步。随着量子计算硬件技术和量子算法的持续突破,量子技术将为基因组学乃至整个生命科学领域带来深远的影响。

本研究由深圳华大生命科学研究院主导,联合武汉华大生命科学研究院共同合作完成。陈一博和黄俊翰为该论文的共同第一作者;徐讯、黎宇翔和张勇为论文的共同通讯作者。研究已通过伦理审查,严格遵循相应法规和伦理准则。

[1] Chen, Y., Huang, J.H., Sun, Y., Zhang, Y., Li, Y., Xu, X. Haplotype-resolved assembly of diploid and polyploid genomes using quantum computing. Cell Reports Methods 4 (2024).