欢迎进来阅读分享。退出
退出
确定退出阅读
确定 取消

同行

首页 > 同行 > 2022年06月刊 > 同行 > 徐讯:大人群、单细胞、时空组,基因组研究又在玩什么...

同行

徐讯:大人群、单细胞、时空组,基因组研究又在玩什么?作者:

今年是人类基因组草图完成22周年,也是华大参加人类基因组计划1%项目的23周年。20多年前第一个人的基因组测序花了38亿美元,今天单人基因组测序的成本只有几百美元。这中间上百万倍的变化,带来了一个产业的变革,这也是为什么基因组在20年前被认为是一个挑战性的工程,而今天变成了一个日常在临床诊断、科研当中常用的工具。

基因组在过去20年特别火,大家如果去看顶级的综合性科学杂志,生命科学是里面篇幅最重的,而基因组学又是生命科学里最热门的。我们相信,未来20年,基因组学依然会非常热门,因为中心法则决定了生老病死,因为我们要解决生命科学的终极问题,如生命的起源、演化、适应性、多样性等。这些基本问题的解决除了在人类认知自身、认知生命的哲学层面起作用,还和整个经济、生产以及我们的健康密切相关。这就是为什么生命科学一定要瞄准底层问题,而这些底层问题又依赖于基因组学这样一个基础科学的发展。

下一个20年,基因组学有望解决的生物学问题

第一,基因组和健康的关系。我们知道中心法则,却不清楚生命密码中的每一段字符最终如何决定我们的健康。为什么人有寿命的限制?为什么有衰老现象?到底是不是基因组决定的?它跟环境的关系又是什么?这些问题就需要通过大人群、大样本和大数据来解决。

第二,组织的异质性与功能。人体由37万亿个细胞组成,每个细胞的转录调控都不一样。即使在同样的组织里,不同细胞所处的环境不一样,它的转录调控也会发生显著变化。所以,研究组织异质性,其实就是解决包括人在内的多细胞生物的不同细胞之间如何协同,如何最终行使器官功能的问题。单细胞和时空组技术的发展,使得我们今天可以用基因组的工具去解释组织异质性和多细胞起源的问题。

第三,关于进化的问题。进化上有很多问题今天仍然无法解释。地球生命起源于海洋,但从海洋到陆地的过程中发生了什么变化?是哪些关键的基因决定了从水生到陆生?蝾螈这类原始生物有着很强的再生能力,它的四肢断掉、甚至脑被切掉一半之后,都可以再生出来。为什么这些低等物种拥有这种再生能力,人却没有?再生问题实际上是衰老问题的核心。要解决这些问题,需要生物多样性的数据,所以我们有数字化地球项目,有关键生物结构的时空组,通过这些手段来解释进化上关键节点的问题。

第四,关于意识起源的问题。记忆和情感在大脑里的载体是什么?为什么人类有高等的智能而猴子没有?猴子和人的大脑结构到底有什么差异,导致了意识、情感和记忆上这么大的差别?

这四个核心的问题,可以说是未来20年基因组科学和华大科研工作的主要方向,也是我们需要时空组、基因组这样的工具,我们要做大人群、大数据、大样本的原因。

大人群、大数据、大样本

从第一个个人基因组到国家基因组计划

20多年前完成的人类基因组计划是一个人的基因组,通过这个项目,我们知道了人类很多关键的蛋白质和决定蛋白质的基因,并通过这些数据,进一步解决了很多疾病和疾病治疗药物的问题。但随着研究的深入,我们发现很多疾病其实很难去解释,因此就有了人类单倍体图谱项目。为什么要做人类单倍体图谱呢?从糖尿病这种所谓的常见病来看,原来的一个假说是,“常见病一定是由常见的突变决定的”,所以之前大家瞄准人群里突变频率超过5%的常见突变,认为这种常见突变可能是决定这些常见疾病的关键基因。但其实,这些疾病可能是由多个基因决定的,于是在人类单倍体图谱的基础上产生了一个技术——全基因组关联分析,目的就是通过研究人类基因组上频率超过5%的突变,来解释这些常见疾病。但后来发现,通过大量的人群研究找出来的关键基因和高频突变,最终只能解释人群里糖尿病遗传性的20%,还有80%的遗传性是解释不了的。

那么,如果不是人群的高频突变决定的,又是什么呢?我们每个人其实都携带了大量的罕见突变,这些突变都不是常见的,它们有没有意义呢?为了研究这个问题,我们和英国、美国的科学家共同启动了千人基因组计划。

千人基因组计划有一个重要的发现:大量个人特异的罕见突变都是轻微有害的。所谓轻微有害,就是指如果只有一个突变,很可能不会引起显著的疾病现象,但是当这些轻微有害的突变聚集,最后很可能就会导致一些常见的疾病,比如糖尿病。所以千人基因组计划给了人类一个启示:疾病的研究不能只做几个常见的突变,而要盯住群体里出现的低频突变,这些突变共同决定了人类的常见病。也就是在这个基础上,才有了百万基因组计划,有了今天我们说的大人群、大样本,才有了英国发起的Genome England,美国发起的All of Us和中国发起的精准医学计划。这就是从第一个人类基因组到第一个亚洲人基因组,到千人基因组,再到今天的大人群基因组背后的科学逻辑。

大人群研究中最关键的问题是样本从哪来。基于此,我们在2011年获批开始组建国家基因库。国家基因库为做百万基因组提供了一个支撑性的设施,包括样本的保存、数据的保存,以及样本到数据的转换等,这也是国家基因库所承担的历史责任。

可以预计,在未来5年左右,大家能够接触的基因组数据量会从现在的不到十万,迅速增长到百万级别。所以如果没有百万级别的处理方法、处理思维、研究工具,未来很可能大家就很难在基因组研究领域有所作为。

搂草—打兔子—养熊猫

全基因组测序哪怕覆盖度只有一成,它所能覆盖的基因组信息都是远远大于外显子组测序的。我们在4年前做了一个项目,项目数据来自我们的无创产前基因检测。无创产前基因检测是抽孕妇5毫升外周血,最后测的数据只能覆盖10%的基因组,但这个数据是随机的。

这样的数据有没有意义呢?我们的假设是,如果样本量能达到十万,甚至百万级别,那么即使是这种低覆盖的数据,也能够解决很多科学问题。比如我们能从这些数据里解读出中国人的遗传突变图谱,或观测出中国流行病暴发的情况。带着这个假设,我们对14万名孕妇的数据进行了分析,最终提供了一个到目前为止依然是中国人遗传结构数据最全的数据集,相关成果也发表在《细胞》期刊上。可以看到,虽然只有10%的数据,但随着样本量的增加,精确度还是可以迅速提上去的。

当时我们也通过这样的数据量,对一些常见的性状基因做了简单的关联。比如发现了NRG1基因,之前从没报道过这个基因跟双胞胎有关,但是后续的功能研究都证明了它和双胞胎有密切的联系。这是一个简单的例子,体现了数据的力量。

接着出现另一个问题,数据量大了之后,对应的科研的思路、方法和工具是不是不一样?有没有新的应用?当然,数据量大的情况下,也存在如何解决隐私、伦理和合规的问题。

汪老师有个说法叫搂草—打兔子—养熊猫,这是今天华大在科研范式上和很多高校不一样的地方。一般高校的数据从哪来?从他们自己主动的样本采集、数据采集而来;但华大的科研数据从哪来?从我们的民生数据上来,例如前面提到的14万大数据文章,其中的数据来自我们无创产前基因检测的应用,获得了受检者的知情同意。应用产生了数据,数据累积产生了科研,科研又带来新的发现,提升了临床的产品。无创产前从原来的1.0版本到现在的全因产品,从检测五条染色体拓展到了近300种遗传病,就是一个例子。我们把无创产前基因检测这样的工作称为搂草,这个搂草工作的目的其实是打兔子,它能够带来科研上的突破。我们和孕妇签订知情同意、伦理相关的协议,她们同意在匿名的情况下,把数据用于科研。基于这些搂草的工作,很快产生超过百万的,我们叫作打兔子的科研数据集,再基于这样百万的数据集,最终产生了新的临床应用,如关于早产的预测等,这就是养熊猫。

单细胞测序:新工具下的细胞分类学

单细胞测序是基因组从分子生物学走向细胞生物学的一个核心突破。过去做细胞生物学研究时,主要通过显微镜和染色来实现,但这些方式显然看不到本质。细胞生物学的本质实际上是细胞里不同的分子,细胞里的分子组成和它的动态变化决定了细胞的功能。

原来我们通过显微镜、染色和免疫组化的方式,只能认识100多种细胞,但是要行使人体这么复杂的功能,细胞的种类可能远远超过一百这个数量级。所以单细胞测序带来了人类观察细胞的全新视角,也就有了人类细胞图谱计划(Human Cell Atlas,HCA)这个全球影响力非常大的项目,这个计划的目的就是通过单细胞测序等新型工具,重新对细胞进行分类,是基于分子的细胞分类学。

过去大家认为人体大概有300种主要的细胞类型,这其实是错误的,人的细胞类型往往比想象中的更复杂。HCA这个项目进行四五年了,在这个过程当中不断产生了很多新的发现,鉴定出很多以前从未报道过的细胞类型,而且这些细胞类型在人体里起着非常重要的作用。科学发现背后的驱动力是工具的发现,有了工具,我们才能够有观察数据的新角度和方法,才会有新的认知。

单细胞测序技术的十年发展

最早做单细胞的时候,都是用口吸管去吸单细胞,通量非常低。一个实验员一天只能处理数十个细胞,这数十个细胞里最终能产生单细胞数据的可能只有几个,大大限制了单细胞研究的整体规模。

后来开始出现Mutiplexing的方法,比如微孔板,再后来用微流控的方式实现数万个单细胞的测序。而今天大家谈的是,如何实现一次性进行上百万个细胞的测序。正是因为工具的不断突破和发展,单细胞领域的数据量在过去10年呈现出几何式快速增长的现象,这就出现了一个剪刀差——单细胞测序通量的快速提升和成本的快速下降。一旦出现这样的剪刀差,我们就知道,一个行业的春天要来了,它的成本变得可及,它的通量、便捷性也越来越有利于开展研究。所以在过去5年左右,单细胞方法在整个生命科学研究领域得到了快速发展。而华大是从2010年开始就在做单细胞方法的开发,过去10多来年,从口吸管到微孔再到微流控的方式,我们经历了一个漫长的技术发展历程。

华大单细胞测序研究

2012年,我们用口吸管单细胞测序的方式做了14个细胞,在同一期《细胞》杂志上发表了两篇文章。当时从来没有在单细胞基因组的角度观察过细胞,所以只做十几个细胞就能在《细胞》上发文章。

2015年,我们用微孔板的方式实现单细胞的扩增。到了2019年,我们开发了一个方法,可以让一个细胞同时做转录组和ATACseq两个组学。也是2019年,我们开发了一个非常重要的工具——DNBelab C4,这是一个基于微流控的设备,它能够实现数千个,目前可以达到数万个单细胞的测序。正是因为这些工具的发展,今天在做单细胞测序的时候,我们每个项目可能都是数十万,甚至到百万级别的细胞量。

借此,我们可以重点关注几个方面的问题,第一是发育的问题,第二是脑科学,第三是疾病(肿瘤)的问题。比如我们2012年在《细胞》发表的两篇文章,当时是想解释在一个肿瘤组织中细胞异质性的情况,这篇文章是第一次系统地解释了肿瘤里每个细胞都是不一样的,每个细胞通过自身的突变情况,可以构建出一个细胞的发育图谱,就是癌症细胞发育的图谱,它的很多突变实际上是有继承的,并不是孤立发生的。后来我们通过单细胞测序的方式,也解释了肿瘤的微环境。一个肿瘤组织里有着非常复杂的免疫微环境,所以在治疗肿瘤的时候,不同的免疫微环境对肿瘤的愈后有着非常大的影响。

为了更好地解释人类细胞的功能,需要做不同物种的比较,我们选择了一个非人灵长类——食蟹猴,把食蟹猴的所有器官都做了单细胞测序,绘制了全球首个非人灵长类动物全细胞图谱,通过这样的数据和人的细胞类型进行对比。这个成果也于2022年4月发表在《自然》期刊。

关于脑认知方面,我们做了一个非人灵长类的脑图谱,还做了蚂蚁的脑图谱。蚂蚁的项目很有意思,这是一个有社会分工的物种,虽然工蚁、雄蚁、繁殖蚁、蚁后的基因组差别不大,但是它们的社会分工是不一样的,那这是不是由基因组决定的呢?通过单细胞测序,我们发现,相比雄蚁和蚁后,工蚁的大脑里缺少一种细胞类型,而这个细胞类型恰恰是控制生殖行为的。这就决定了工蚁只能工作,不能够参与生殖后代。所以说,单细胞的研究能够为很多生物学现象提供新的机制解释的途径。

时空组学开启生命科学领域第三次科技革命

当然,单细胞测序也存在一定的不足。因为单细胞测序需要做组织的解离,而解离后的细胞失去了空间位置信息,当我们看到一群特异的细胞类型时,就没法解释它们是干什么的,是在哪个地方出现的。所以,真正进行生物学问题的解释就得回到结构上来,因为结构决定功能。而要想了解结构,就必须在原位进行数据的观察,这就是为什么我们需要时空组学。

生命科学的发展史上,显微镜的发明开启了整个生命科学发展的重大机遇,是人类在认知自身、认知生命过程中的一个重大转折点。有了显微镜,我们才能观察到生命最基本的单元——细胞,认识到有不同的细胞类型,认识到有细菌这个物种的存在。正是因为显微镜的发现,才带来了之后包括青霉素等治疗细菌感染的药物,才有了人均预期寿命从原来的30多岁,到现在的70岁到80岁。

2001年,人类基因组图谱绘制成功并发表,这是整个生命科学领域的第二个转折点。正是因为有了人类基因组,大家可以从分子层面去解释生命的现象,才有了今天的精准医学、癌症治疗的靶向药物。包括对抗新冠,也是因为有了基因组技术,我们才能第一时间对它进行测序分析,发现它是一个冠状病毒。

但是前面两个事件,显微镜观察生命结构是只有形态,没有分子层面、机制层面的解释;DNA测序技术则是只有分子信息,没有结构信息。时空组学则同时把结构和分子功能整合到了一起,这也是人类在认知生命上第一次把结构和功能进行整合。

因此,我们将时空组学技术称为生命科学领域的第三次科技革命。其实它的关键就是我们的DNA纳米球的阵列芯片,因为它能够实现每个纳米球之间500纳米的间距,这样的间距让它能够捕获组织原位的mRNA信息,然后通过坐标信息,将测出来的mRNA定位回它的空间位置,最终实现组织空间的分子层面的重定位。在2021年,《自然-方法》把时空组学评为2020年的年度技术。


2022年5月,我们联合多家机构在细胞出版社官网发布了全球首批生命时空图谱。这是首次从时间和空间维度上对生命发育过程中的基因和细胞变化过程进行超高精度解析。其中,小鼠胚胎发育时空图谱相关成果以封面文章的形式在《细胞》期刊发表。我们利用自主研发的时空组学技术,揭示了小鼠胚胎从9.5天到16.5天的器官发育和细胞演变过程。这是一个全景式超高精度的对小鼠胚胎发育过程中的分子和结构的动态描述,是当前生命科学对整个胚胎发育过程描绘得最精细的图谱。其实很多科学家都试图做过相关研究,但之前的技术达不到单个细胞的精度,也无法实现整个组织器官甚至整个个体层面的视场。相比之下,我们的技术不管在分辨率还是视场上,都是上千上万倍的提升。

推特上有位科学家把我们和友商的技术做了一个形象的对比,如下图所示,左侧的大黑圈是友商技术所能观察到的分辨率,而我们能观察到的分辨率是一个小小的点。大家可以直观地看到差别,这就是技术所带来的优越性。


时空组学带来生命科技产业的革命性突破:认知与工程化

时空组学技术对重新认知生命会有重大推动作用,主要在四个方向带来影响。

第一,重新认知生命结构。举个例子,我们可以通过时空组学重新认知大脑的结构。过去,我们虽然知道不同脑区可能会行使不同的功能,但在显微镜下,从细胞观察的角度是没办法把不同的脑区和功能结合在一起的。但通过时空组学技术,我们就能对大脑的不同分区进行精细化的、基于分子功能的分区,这是第一次通过时空组学技术来重新认知大脑,跟用CT、核磁等技术认知到大脑的结构是不一样的。

第二,重新定义疾病。现在的疾病是通过病理技术来定义的。病理其实就是两种技术,一种是通过HE染色,另一种是用免疫组化,用一些蛋白抗体来做染色,然后观察、定义疾病。而这些常规的方式是没有办法数字化的,很多疾病在做病理时往往取决于医生的经验,但是时空组学提供的数据维度完全不一样,所以我们可以重新定义疾病。

第三,重新认知个体发育,认知一个受精卵是如何发展成一个成熟的个体的,如前面提到的小鼠发育的案例。

第四,重新认知物种起源。我们对物种的起源和适应性,通过时空组学这个角度可以有完全不同的理解

时空组学联盟

时空组学联盟的成立是基于时空组学技术的突破,这个项目的意义实际上是通过时空组学技术来解析生命的结构。这类似于被称为20世纪人类三大科学工程之一的人类基因组计划。人类基因组计划启动的一个核心契机就是测序技术的发展,它的意义就是为了破译单个人的基因组密码,后来带来了生命科学的蓬勃发展。当时人类基因组计划也是一个联盟,有6个国家的科学家参与其中,今天我们发起的时空组学联盟已经有20个国家的90多位科学家参与其中。我们希望通过大科学工程和全球合作,一起推动人类终极问题的回答。这个联盟是科学界自发组织的,我们通过联盟互相交流、互相学习、共享数据,共同形成科学认知的共识,推动整个科学的发展。

可以说,人类基因组计划之后,这种大科学联盟的方式是全球生命科学领域产生重大进展的关键,这些联盟的计划不仅加强了国际科学交流,也推动了科学的不断进步。这就是我们发起时空联盟的原因,这个联盟必将推进我们对疾病和人类自身生命的认知,以及技术发展,包括在通过生物技术解决农业等其他问题上都可能产生重大突破。

时空组学联盟的成员是一群顶级的科学家,不仅包括生物学家,还有数学家、计算机学家等,这是多学科交叉的联盟,多国家、多学科、多领域的合作,将产生重磅级的科学成果。


(本文根据同行学堂“徐讯:大人群、单细胞、时空组,基因组研究又在玩什么?”视频及时空组学联盟启动暨首期专辑成果发布会现场速记整理而成)

{{Like}}

返回
300
发表
全部评论{{TotalItems}}
{{Comment.NickName}}
{{Comment.Comment}}
{{Comment.CreateDate}}
查看更多评论
分享此篇

使用“扫一扫”即可将网页分享至好友

操作太频繁了,稍后再试
确定
确定