2025年,人工智能领域迎来大爆发,各大厂商接连推出最新、最强的AI产品。DeepSeek-R1、o3-mini等大模型相继问世。2月18日,埃隆·马斯克的AI公司xAI正式推出最新的Grok3模型,并称其是目前“地球上最聪明的AI”;紧接着,2月20日,生物领域也迎来重大突破——由Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校及旧金山分校等机构联合研发的Evo2正式问世。该模型基于超过128,000个物种的基因组数据,总计9.3万亿个核苷酸,是目前公开发布的最大规模AI生物学模型。

近年来,人工智能在生物学领域的应用迅速发展。从基于蛋白质序列训练的语言模型(如ESM-3)到能够预测蛋白质结构和设计新型蛋白质的工具,AI已经显著提升了生物设计的精度和效率。然而,这些模型大多聚焦于蛋白质层面,未能全面触及基因组的复杂性。
2024年11月,斯坦福大学化学工程助理教授Brian L. Hie及加州大学伯克利分校助理教授Patrick Hsu团队在Science上发表了一项开创性研究成果——Evo,一个能够解码和设计DNA、RNA和蛋白质序列的大规模基因组基础模型。

Evo模型以约80,000个原核生物及噬菌体基因组为训练数据,成功生成了功能性CRISPR-Cas复合物以及IS200和IS605转座系统,并经实验验证。另外值得一提的是,论文作者之一的Patrick Hsu正是基因编辑先驱、华裔科学家张锋的第一届研究生,现为Arc Institute的联合创始人。

Patrick Hsu(图片来自UC Berkeley Research)
Evo2在原有的基础上实现了重大升级,完整版包含400亿参数,远超一代的70亿参数规模;同时,其训练数据涵盖128,000个物种(包括人类、动物、植物及其他真核生物),总计9.3万亿个核苷酸。目前Evo2已在NVIDIA BioNeMo平台上对外开放,同时该项目已经完全开源,研究团队已经在github上传其训练数据、训练和推理代码以及模型权重。
项目链接>>http://github.com/ArcInstitute/evo2
此外,研究团队还开发了一个名为Evo Designer的在线AI平台,科学家们可在平台上输入基因组序列,进行基因组生成与功能预测。

核心技术与架构创新
Evo2的训练数据涵盖128,000个物种,包括人类、植物、真核生物、原核生物(细菌、古菌)及噬菌体,总计9.3万亿个核苷酸。与前代仅基于80,000个原核生物数据的Evo1相比,Evo2首次引入了人类染色体、酵母染色体等真核生物的长序列,使其能够捕捉从单核苷酸到百万碱基对跨度的复杂生物模式。
为高效处理海量且复杂的数据,Evo2采用了团队与OpenAI联合创始人Greg Brockman共同开发的全新架构StripedHyena 2。该架构通过优化注意力机制并引入混合卷积策略,实现了比传统Transformer快近3倍的训练速度,同时将上下文窗口扩展至100万个核苷酸,有效捕捉真核基因组中远距离调控元件之间的交互作用。

Evo2在功能预测上的表现尤为突出。以乳腺癌相关基因BRCA1为例,其能够以90%以上的准确率区分良性突变与致病突变,且在非编码突变(如调控区域变异)的预测上达到“最佳水平”(SOTA)。传统工具如DeepMind的AlphaMissense主要依赖编码区数据,而Evo2通过自监督学习,直接从未标注的基因组序列中提取调控逻辑,甚至识别外显子-内含子边界、转录因子结合位点等特征。由于非编码突变往往与疾病发生密切相关,但传统方法难以捕捉其潜在影响,Evo2的这一优势无疑为精准医疗和个性化治疗提供了新的思路与工具。
除了理解现有基因组内在逻辑,Evo2还能根据所学规律生成全新DNA序列。这不仅涉及单个基因或蛋白质编码序列,还包括含有调控元件、tRNA、rRNA等完整功能单元的大型基因组片段。目前,研究人员已利用Evo2生成受生殖支原体、人类线粒体和酵母染色体启发的序列,其生成结果更趋自然、连贯。尽管这些人工设计的基因组在实际应用中仍需进一步验证,但这一成果标志着向合成全新生物系统迈出了坚实一步。
Evo2能够在无需专门针对人类疾病数据训练的前提下,精准识别基因突变与疾病之间的关联。前文提到,在乳腺癌相关基因BRCA1的变体测试中,Evo2 预测突变的准确率已超过90%。利用这一能力,医生可以对患者全基因组数据进行深度解析,精准定位与疾病相关的突变,从而为早期诊断、风险评估和个性化治疗方案制定提供有力的数据支持。
通过精准预测突变对基因功能的影响,Evo2不仅能识别传统编码区中的已知药物靶标,还能揭示非编码区中隐含的重要调控因子。结合结构预测工具(如AlphaFold)对Evo2生成的新型蛋白质序列进行三维构象评估,可为新型生物分子及治疗性蛋白的设计提供丰富候选方案。此外,其跨物种知识迁移能力有助于从动物模型到人类疾病的药效关联研究,加速从靶点发现到临床前验证的转化过程。
除了解析基因组内在逻辑,Evo2还具备生成全新DNA序列的能力。通过捕捉从单核苷酸到百万碱基对级别的长程依赖关系,Evo2在生成受生殖支原体、人类线粒体及酵母染色体启发的序列实验中展现出高度自然和连贯的设计效果。这为构建定制化的合成生物系统提供了全新工具:科研人员可基于Evo2设计包含调控元件、tRNA、rRNA等功能模块的完整基因组,从而实现从单细胞微生物到复杂多细胞系统的精准生物工程构建。
Evo2与其他AI生物学模型的互补性
目前,除Evo2之外,生物领域内还有ESM-3等蛋白质语言模型和AlphaFold等结构预测工具。ESM-3侧重于通过海量蛋白质序列数据预测蛋白质结构与设计新型分子,而AlphaFold专注于单个蛋白质的三维结构预测。
尽管未来在实验验证和多尺度融合方面仍需持续探索,但Evo2已为构建智能、高效的生物系统设计平台奠定了坚实基础,并为全球科研人开启了进一步探索生物科技创新的新途径。
VectorBuilder云舟生物是世界知名分子生物学家蓝田博士创办的基因递送领军企业,在全球设有10余家子公司和办事处,2023年晋升为全球独角兽企业。
云舟生物独创“载体家”平台,开启了个性化基因载体的商品化时代;目前已赋能全球90多个国家和地区,为超过4500家顶尖科研院校和制药公司提供服务,在QS前100高校的客户覆盖率达到了90%,全球TOP30药企的客户覆盖率亦超过90%,产品成果的全球文献引用量逾5000篇。
云舟生物的基因药物CRO、CDMO项目遍布北美、欧洲、日本等多个国家和地区,已成功助力全球数十个项目成功开展IIT或IND研究,其中GMP级别的质粒和慢病毒载体已获得美国FDA的IND正式批准,用于在美国的多中心临床试验。
云舟生物致力于系统性攻克基因递送行业的关键技术瓶颈,为行业和世界创造不可取代的价值。







收藏
登录后参与评论