暂无数据 暂无数据
EN

业务相关咨询电话:

临床检测:400-605-6655
科研服务:400-706-6615
司法服务:400-900-2616
测序仪器:400-096-6988

前台电话:+86-0755-36307888

传真:+86-0755-36307273
客服邮箱:info@genomics.cn
媒体联络:media@genomics.cn
地址:广东省深圳市盐田区梅沙街道云华路9号华大时空中心(518085)

    新闻中心

新闻中心

及时播报华大科研、教育、产业等方面的相关资讯

首页 华大概况 新闻中心 集团动态

Genos模型全新升级!让生命调控可预测、可模拟

发布日期:2026/06/16

过去二十多年,基因组学最重要的任务之一,是把生命序列“读出来”。从人类基因组计划,到长读长测序,再到T2T完整基因组组装,研究者已经越来越接近完整读取30亿碱基对组成的生命之书。

但现阶段真正的难题,并不是读出,而是读懂。基因突变是否会改变基因表达?为什么非编码变异可能导致疾病?同一段DNA为什么会在特定细胞中呈现不同的转录活性?能否仅通过染色质开放状态捕捉到细胞状态的改变?这些问题,正是基因组智能分析从“序列识别”走向“功能理解”的关键一步。

2025年,华大生命科学研究院与之江实验室联合发布了基因组基础模型Genos。近日,研究团队在此基础上深入探索真实生命科学问题,成功构建并发布了两个下游模型应用——Genos-Mutation与Genos-Reg。二者分别从“突变效应”和“表观状态”两个方向切入,共同推动Genos从“读懂基因组序列”的基础模型,走向“预测表达、解释调控、模拟生命状态”的应用框架。目前,两大模型应用已入驻华大DCS Cloud云平台,面向全部科研人员开放体验。

Genos新主页截图,包含Genos-Mutation与Genos-Reg两大应用

Genos-Mutation:让突变对基因表达的影响可计算

在遗传病诊断、肿瘤突变解读和非编码变异功能分析中,判断基因突变是否影响基因表达这一核心问题始终存在。传统变异解读多依赖群体频率、保守性、蛋白结构、剪接预测和文献证据等信息,面对非编码区、调控区、UTR区域与非经典剪接区域的变异,通常难以判断其真实生物学后果。

针对这一难题,Genos-Mutation应运而生。该模型面向个体基因组变异,以32kb长度的基因组序列窗口为输入,直接同时预测多种特定细胞或组织背景下的RNA-seq表达轨迹,并模拟突变前后的个人基因组状态、对比可能造成的表达差异,多用于突变效应解释、非编码变异功能分析和候选致病变异优先级排序。该模型不只是简单判断一个突变“是否有害”,而是进一步尝试回答:这个突变可能影响哪个细胞类型、基因、区域的表达与调控功能?是否会造成异常剪接?

此外,为了适配不同研究目标,Genos-Mutation设计了两种能力路径

1. 精准突变效应预测:基于数百例高质量个人基因组与配对转录组数据,该模式在统一细胞背景下学习序列变异与表达输出的对应关系。在更接近真实个体基因组背景的数据中,模型能捕捉序列变异对转录活性的影响,还能更充分考虑人群遗传差异、个体特异性变异、局部单倍型背景以及突变之间的组合效应。通过真实个体配对数据的泛化性测试,该模型预测准确性(皮尔森相关性)能达到0.9+,远高于AlphaGenome模型在该个体预测的约0.5准确性。

2. 多组织/细胞类型同步预测:该模式面向多种细胞或组织背景下的表达轨迹建模,可同步预测同一突变在不同生物学环境中的表达效应,适用于分析在免疫细胞或特定转录因子活跃、染色质开放、增强子被激活的细胞状态下表现出功能效应的突变。

当下,该模型能在传统ACMG 证据不足、RNA实验样本稀缺、临床解释存疑等场景中,为编码区与非编码变异的功能分析提供新的计算证据层

Genos-Mutation示例

Genos-Reg:让细胞状态的表观调控差异可模拟

如果说Genos-Mutation关注的是遗传突变造成的影响,那么Genos-Reg则聚焦于更复杂的问题:当DNA序列不变时,表观遗传状态的细微改变会如何影响基因表达?

人体几乎所有细胞都拥有相同的基因组序列,但神经元、肝细胞、免疫细胞和上皮细胞却功能迥异。其原因并非DNA序列改变,而是染色质开放状态、转录因子结合、增强子活性和表观调控网络存在差异。也就是说,DNA决定基因表达潜能,而表观遗传状态则决定哪些潜能被真正激活

基于这一原理构建的Genos-Reg,以大规模预训练的Genos-10B为基础,同时在DNA序列之外引入ATAC-seq作为染色质开放程度的动态调节信号,通过整合基因组序列信息与表观遗传特征,实现单碱基分辨率、细胞类型特异性的基因表达预测

ATAC-seq这一关键信号就如同“荧光标记笔”,重点标记出更容易被转录因子或调控蛋白访问、更可能参与基因表达调控的区域。由此,Genos-Reg便可以在相同DNA序列基础上,根据不同细胞的染色质开放状态,预测RNA-seq表达结果。

研究团队从构建面向衰老队列的NK细胞状态的虚拟细胞模型示例中完成验证:模型输入DNA序列与不同NK细胞状态下的ATAC-seq信号,最终预测的RNA-seq表达轨迹与真实scRNA-seq数据结论保持一致。

这说明Genos-Reg不仅能解析DNA序列中的静态调控潜力,还能根据表观开放状态模拟细胞状态改变带来的转录输出变化。模型正在从“预测一段序列能不能表达”,走向“预测这段序列会如何表达”——这正是虚拟细胞建模的重要雏形。

Genos-Reg示例

Genos下游模型创新构建研究模式,探索生命调控奥秘

基于Genos研发出的Genos-Mutation与Genos-Reg,分工明确、互为补充:前者侧重突变效应,对比序列突变前后的RNA表达差异;后者聚焦表观调控状态,重点解析相同DNA序列在不同细胞状态下的表达差异

在传统研究中,想验证突变造成的影响、对比分析细胞调控差异,需要构建实验体系、获取组学数据、复杂生信分析等一系列流程,不仅成本高、周期长、依赖样本,还难以覆盖大量候选位点和细胞状态。

而Genos两大下游模型打造出“AI大规模筛选+实验重点验证”的全新研究模式,并不是用AI取代实验,是让实验更具方向性与高效性。

面向具体的实际应用,Genos-Mutation可帮助解读难以判断的非编码变异、评估肿瘤突变对转录调控网络的影响、赋能个人基因组解读;Genos-Reg 则深耕免疫细胞研究、虚拟细胞构建,致力于模拟不同细胞状态之间的表达差异,成为连接基因组、表观组和转录组的重要桥梁。

更长远来看,生命调控的维度远不止DNA序列和染色质开放状态。DNA甲基化、组蛋白修饰、三维基因组结构、单细胞多组学、空间组学以及各类扰动实验数据,都可能从不同层面记录细胞如何读取、调节和执行基因组信息。未来,Genos下游模型也将尝试纳入更多模态数据,在更完整的生命数据坐标系中解析基因调控的底层逻辑

对生命科学基础模型而言,模型能力的提升,离不开高质量、标准化的多模态数据支撑。我们期待与拥有专业数据、真实科研场景和明确科学问题的团队开展合作,共同探索更多生命调控规律。从DNA到RNA,从突变解析到功能验证,从表观状态模拟到细胞命运调控,Genos下游模型正一步步将“读懂生命”的愿景,转化为可落地、可拓展、可持续的科研实践。