浙江大学郭国骥团队“女娲CE”AI模型研究模型

2025-07-11 07:27 Cii.中国

1.png



      (Cii.中国2025年7月11日讯)浙江大学郭国骥教授团队开发的“女娲CE”(Nvwa cis-regulatory element)多任务深度学习AI模型,近日在基因组预测领域取得重大突破。该模型通过自主研发的超高通量、超灵敏单核ATAC测序技术(UUATAC-seq),可直接从基因组序列预测单细胞水平的染色质可及性(调控序列开放状态),破解脊椎动物基因组调控“语法”。UUATAC-seq技术支持单日内完成一个物种的染色质可及性图谱绘制,并突破传统单链测序局限,实现双链模板测序,显著提升了检测准确性。

       “女娲CE”基于UUATAC-seq的高质量数据训练,对几乎所有细胞类型的染色质可及性预测准确率超90%(AUROC>0.90),且具备跨物种泛化能力——无需训练即可预测人、猴、牛、猪等7个物种的单细胞调控元件蓝图,其中人类调控元件预测结果与实验数据高度吻合。与传统模型侧重序列匹配不同,“女娲CE”直接学习DNA序列中的染色质开放状态及调控模式,有效识别跨物种普适的调控“语法”,揭示了脊椎动物细胞功能调控的通用规律。

       应用层面,团队利用“女娲CE”预测了镰刀型贫血症的治疗性基因位点HBG1-68:A>G(未被现有数据库记录),经基因编辑实验证实,该位点修改后可显著提升胎儿血红蛋白表达量,成为世界首例由AI设计的人类疾病治愈性位点。此外,模型对7个物种的预测验证了其功能的普适性。

       这项成果不仅为解读基因组调控语言、建立数字生命模型奠定基础,还揭示了脊椎动物调控“语法”的保守性(强于核苷酸序列本身),为理解细胞类型演化提供新视角。在应用前景上,其预测结果可用于合成生物学设计特定调控DNA、医学领域解析遗传病机制及预测治愈性位点,以及农学辅助高产生畜基因组设计,推动多领域发展。

       相关成果于2025年7月8日发表于国际顶尖学术期刊《细胞》(Cell),论文标题为《Modeling the vertebrate regulatory sequence landscape by UUATAC-seq and deep learning》。研究团队来自浙江大学医学院/良渚实验室、骨骨髓移植中心、干细胞与再生医学中心等机构,并得到华东师范大学、北京师范大学等技术支持。此次突破标志着我国在基因组预测领域实现国际领先,为生命科学、医学及农学研究提供了强大工具支撑。


昵称:
内容:
验证码:
提交评论
评论一下