欢迎进来阅读分享。退出
退出
确定退出阅读
确定 取消

聚焦

首页 > 同行 > 2022年06月刊 > 聚焦 > 黎宇翔:坚信“第一性原则”,坚信科学的力量

聚焦

黎宇翔:坚信“第一性原则”,坚信科学的力量作者:

算法是时空组学技术的核心部分之一。没有精密复杂的算法加持,时空组学就无法实现快速高通量的结果产出。本次我们有幸对话时空组学技术算法相关研发负责人黎宇翔,听听算法研发背后的故事,以及他作为一个资深华大人的心路历程。


问:是什么契机让您加入了华大?

黎宇翔:我本科就读于华南理工大学,学习的是生物工程专业。当时有往届毕业后去华大工作的学长和学姐,在相关领域取得了一些比较突出的科研成果,回校交流时给我们带来了很多(关于华大的)信息,那时我才知道华大这个机构以及背后的故事。当时学院的院长也很支持学生到这种研究机构里面参与各种项目。此外,我对分析、算法,还有编程这块比较感兴趣。所以以上种种因素,让我选择报名了华大的联合培养项目。

2010年9月加入华大之后,我开始从事生物信息相关的分析工作,慢慢发现跟我自己的兴趣爱好还是比较契合的。因为当时华大最领先的一个方面是在基因组领域的研究,所以我从那时开始做基因组相关的项目,也接触了很多这一领域内的牛人。我的本科毕业答辩课题,就是我自己主导的一个项目,后来这个研究成果发表在了《自然-生物技术》(Nature Biotechnology)上。

问:您觉得华大在科研上的氛围和管理方式,有什么独特的地方和优势?

黎宇翔:我觉得有几个方面。首先,包括汪老师、徐讯院长在内的华大的领导都很看重年轻人。其实当年华大的很多项目成果也都是年轻人做出来的。

华大对年轻人很信任,这在领域内还是比较少见的。在这里不看你有什么头衔、不看你拿了什么奖,或者履历有多光鲜,最主要还是看你的工作能力、取得的成果以及态度。比如这一批时空组学论文的专辑,很多第一作者或者通讯作者都是非常年轻的科学家,他们可能也都是第一次主持这么大的项目。很多年轻学者在这个年龄段,不可能独自去主持这么大的项目,或者得到这么多资源。比如一些博士毕业后独立去主持的课题,经费才几十万元;但华大有大平台的优势,一个年轻人一旦被认为是有能力、可以被信任的,给他负责的可能就是几百万元、上千万元的项目,同时也会得到很多专家的指导,这样的机会对于年轻科学家是很难得的。而且你会发现,很多年轻人你越信任,他/她就越能做出成果,我觉得这也是研究院能够不断涌现年轻人才的一个原因。

所以其实看的就是两点:第一是你作为年轻人,能不能积极主动地学习,让你自己的知识和技能超越你的同龄人甚至前辈,我觉得这一点在这个行业内是完全有可能的。第二是看你能不能抓准机会,我觉得在华大有很多机会,每个人都是可以争取的。比如在时空组学这个项目上,最开始我们都在问一些年轻人要不要一起参与,有人愿意也有人不愿意。当你接了一个项目,你就要付出一些额外的劳动,同时很可能看不到任何回报。这就很考验个人的意志和信心,坚持做,最后就能做出成果来。

问:请您介绍一下,您和您的团队在时空组学项目中的工作内容是什么?

黎宇翔:我负责的内容是时空组学技术算法的相关研发。

时空组学技术包含两个方面:一是实验技术,就是指如何用芯片去捕获RNA,然后进行测序等操作;二是下游分析技术,即要知道每一条测出的RNA序列分别来自芯片上的哪个位置,这也是时空组学的核心问题之一。

简单来说,时空组学技术实际上是对芯片做两次测序。第一次测序获得的是芯片上每个“点”(DNB)的“位置信息”(CID),每个CID序列对应了不同的位置;第二次是把样本切片贴到芯片上后,DNB捕获了RNA序列,也绑定了CID序列,再进行测序,获得每个点上测得的RNA序列和CID。然后通过CID序列的对应关系,就能把RNA序列和位置信息关联起来,从而获得切片中RNA序列的物理位置。

这里面有很多技术难题,复杂度非常高。比如对测序结果的还原是很困难的,因为要分析的数据体量特别大。比如对猴脑的研究,一次下机就会产生几个甚至几十个TB的数据量,意味着一条RNA序列可能就要在100亿个位置中找关联,还要考虑到容错等要求,这在运算上就会有很多问题。此外,如果直接把数据拿来做比对,那运算的时间就会很长。因此我们在研发过程中做了很多算法和结构上的优化,现在可以拆分数据让多台机器一起运算,同时大大降低了对内存的消耗,让运算的时间大大缩短。

问:这个技术的亮点是什么?在国际上的领先性在哪里?

黎宇翔:通过算法的编写和优化,时空组学测序和分析程序能够运行得足够快,结果足够准确,并且能够在普通设备上运行,这是时空组学算法的一大亮点。

时空组学技术的成功,我认为来源于华大长期以来的技术储备和积累。比如,早期为了增加测序密度,华大的测序芯片进行了特殊设计,通过半导体技术让DNB按照固定的顺序排列;为了能够对编码有更好地管理和溯源,当时在开发MGISEQ-2000时,决定对芯片上的DNB进行统一编码;为了降低测序成本,又开发了DIPSEQ技术……正是通过不断优化测序技术,不断进行技术积累,这才让时空组学技术的诞生成为可能。当我和陈奥、龙奇、廖莎等人在初期讨论技术可行性的时候,很神奇地发现所需要的东西都已经具备,甚至不用在现有的基础上再去大改什么东西了。很多公司的技术能够做到很高的分辨率,但是视域很小,能够测的对象也很少。华大时空组学技术的领先,在于保持高分辨率的同时,还能实现大视场,这是很难的一个事情。

华大的领先,不仅在于拥有一项先进的技术,还在于我们会持续地投入,不断把这个技术做得更好。从内部看,我们自己就是我们产品最大的用户,研究院和其他体系会提出许多研究方案和需求,需要时空组学技术来实现和解决;从外部看,华大承接了许多世界领先的科研项目,客户也会提出很多改进意见。这样我们就形成了内驱和外驱的“双循环”。

另外,我们深知技术的突破可能是一夜之间的事情,在这一领域我们会保持高度的敏感性。

问:研发过程中有什么让您难忘的故事吗?

黎宇翔:一开始陈奥、廖莎和我三个人讨论了几个事情:第一是讨论这个技术在原理上能否实现,第二要验证结果能够精准还原真实的信息。我们发现在原理上这是可行的,于是就着手开始进行验证。

但在实际处理的时候,因为数据量太大,第一次下机跑了将近1个星期。而且当时产出的结果惨不忍睹,错误率很高,跟我们的预期相差很远。我们各种分析找原因,但很多时候找不到明确的原因。我们也找来了其他同事帮忙一起进行实验,但在很长的一段时间里没有取得很大的进展。

因为当时还没立项,所以大家基本都是用项目以外的时间加班来做。那段时间工作量特别大,大家相对还是比较痛苦的,觉得是不是哪里可能有致命的问题。但我确实没有担心过,因为所有基础的技术和这些技术的特征,包括对技术的一些分析、建模或者模拟,都揭示这个东西是可以做到的。只要大家有信心,坚持不断优化方案、更改配方或者调整算法,做成只是时间问题。这就是“第一性原理”,这就是科学的力量。

最后,终于有一次跑通了,我们终于在芯片上看到了空间分布的规则,同时原来要花一周时间跑出来的结果,经过优化后1天多就跑出来了。那时大家就确信这个东西是彻底可以做成的。

问:您认为,华大时空组学技术对全球生命科学发展有怎样的意义?

黎宇翔:我们坚信时空组学技术代表了未来的一个方向,也会开启一个全新的领域,我们非常深信这个技术会为世界带来一些改变。


{{Like}}

返回
300
发表
全部评论{{TotalItems}}
{{Comment.NickName}}
{{Comment.Comment}}
{{Comment.CreateDate}}
查看更多评论
分享此篇

使用“扫一扫”即可将网页分享至好友

操作太频繁了,稍后再试
确定
确定