1. yl23455永利官网

      洞察市场格局
      解锁药品研发情报

      免费客服电话

      18983288589
      医药数据查询

      生物界的DeepSeek!斯坦福联手英伟达等发布目前最大的AI生物模型Evo2,开启基因组研究新纪元

      AI Evo2 斯坦福联手
      02/21
      54

      2025年,人工智能领域迎来大爆发,各大厂商接连推出最新、最强的AI产品。DeepSeek-R1、o3-mini等大模型相继问世。2月18日,埃隆·马斯克的AI公司xAI正式推出最新的Grok3模型,并称其是目前“地球上最聪明的AI”;紧接着,2月20日,生物领域也迎来重大突破——由Arc Institute、英伟达、斯坦福大学、加州大学伯克利分校及旧金山分校等机构联合研发的Evo2正式问世。该模型基于超过128,000个物种的基因组数据,总计9.3万亿个核苷酸,是目前公开发布的最大规模AI生物学模型

      Evo2可一次性解析长达一百万核苷酸的序列,可广泛应用于生物分子研究、基因功能预测、创新分子识别以及基因突变效应评估等多个领域,为合成生物学、精准医疗、药物发现等带来前所未有的可能性。
      Evo2的诞生与进化

      近年来,人工智能在生物学领域的应用迅速发展。从基于蛋白质序列训练的语言模型(如ESM-3)到能够预测蛋白质结构和设计新型蛋白质的工具,AI已经显著提升了生物设计的精度和效率。然而,这些模型大多聚焦于蛋白质层面,未能全面触及基因组的复杂性。

      2024年11月,斯坦福大学化学工程助理教授Brian L. Hie及加州大学伯克利分校助理教授Patrick Hsu团队在Science上发表了一项开创性研究成果——Evo,一个能够解码和设计DNA、RNA和蛋白质序列的大规模基因组基础模型。

      Evo模型以约80,000个原核生物及噬菌体基因组为训练数据,成功生成了功能性CRISPR-Cas复合物以及IS200和IS605转座系统,并经实验验证另外值得一提的是,论文作者之一的Patrick Hsu正是基因编辑先驱、华裔科学家张锋的第一届研究生,现为Arc Institute的联合创始人。

      Patrick Hsu(图片来自UC Berkeley Research)

      Evo2在原有的基础上实现了重大升级,完整版包含400亿参数,远超一代的70亿参数规模;同时,其训练数据涵盖128,000个物种(包括人类、动物、植物及其他真核生物),总计9.3万亿个核苷酸。目前Evo2已在NVIDIA BioNeMo平台上对外开放,同时该项目已经完全开源,研究团队已经在github上传其训练数据、训练和推理代码以及模型权重。

      项目链接>>http://github.com/ArcInstitute/evo2

      此外,研究团队还开发了一个名为Evo Designer的在线AI平台,科学家们可在平台上输入基因组序列,进行基因组生成与功能预测。

      Evo Designer平台(图片来自Nature
      平台地址>>http://arcinstitute.org/tools/evo/evo-designer

      核心技术与架构创新

      1、超大规模训练数据集

      Evo2的训练数据涵盖128,000个物种,包括人类、植物、真核生物、原核生物(细菌、古菌)及噬菌体,总计9.3万亿个核苷酸。与前代仅基于80,000个原核生物数据的Evo1相比,Evo2首次引入了人类染色体、酵母染色体等真核生物的长序列,使其能够捕捉从单核苷酸到百万碱基对跨度的复杂生物模式。

      2、突破性模型架构:StripedHyena 2

      为高效处理海量且复杂的数据,Evo2采用了团队与OpenAI联合创始人Greg Brockman共同开发的全新架构StripedHyena 2。该架构通过优化注意力机制并引入混合卷积策略,实现了比传统Transformer快近3倍的训练速度,同时将上下文窗口扩展至100万个核苷酸,有效捕捉真核基因组中远距离调控元件之间的交互作用。

      Evo2的模型架构、训练过程、数据集和评估概述
      核心能力解析
      1、基因突变功能预测

      Evo2在功能预测上的表现尤为突出。以乳腺癌相关基因BRCA1为例,其能够以90%以上的准确率区分良性突变与致病突变,且在非编码突变(如调控区域变异)的预测上达到“最佳水平”(SOTA)。传统工具如DeepMind的AlphaMissense主要依赖编码区数据,而Evo2通过自监督学习,直接从未标注的基因组序列中提取调控逻辑,甚至识别外显子-内含子边界、转录因子结合位点等特征。由于非编码突变往往与疾病发生密切相关,但传统方法难以捕捉其潜在影响,Evo2的这一优势无疑为精准医疗和个性化治疗提供了新的思路与工具。

      2、基因组级序列生成

      除了理解现有基因组内在逻辑,Evo2还能根据所学规律生成全新DNA序列。这不仅涉及单个基因或蛋白质编码序列,还包括含有调控元件、tRNA、rRNA等完整功能单元的大型基因组片段。目前,研究人员已利用Evo2生成受生殖支原体、人类线粒体和酵母染色体启发的序列,其生成结果更趋自然、连贯。尽管这些人工设计的基因组在实际应用中仍需进一步验证,但这一成果标志着向合成全新生物系统迈出了坚实一步。

      3、跨物种知识迁移
      由于模型训练涵盖了多种生物,Evo2展现出强大的迁移学习能力。Evo2能够将不同物种间的基因组规律相互融合,从而在生成新的序列时充分利用这些共享的生物学信息。例如,模型在借鉴原核生物基因组特征的同时,也能灵活应用于设计人类或植物的新型蛋白质序列。这种能力不仅提升了模型的普适性,也为不同领域的基因组设计提供了丰富的跨物种参考,使得同一模型在多种应用场景下均能发挥出色性能。
      广阔的应用前景
      1、精准医疗

      Evo2能够在无需专门针对人类疾病数据训练的前提下,精准识别基因突变与疾病之间的关联。前文提到,在乳腺癌相关基因BRCA1的变体测试中,Evo2 预测突变的准确率已超过90%。利用这一能力,医生可以对患者全基因组数据进行深度解析,精准定位与疾病相关的突变,从而为早期诊断、风险评估和个性化治疗方案制定提供有力的数据支持。

      2、药物发现

      通过精准预测突变对基因功能的影响,Evo2不仅能识别传统编码区中的已知药物靶标,还能揭示非编码区中隐含的重要调控因子。结合结构预测工具(如AlphaFold)对Evo2生成的新型蛋白质序列进行三维构象评估,可为新型生物分子及治疗性蛋白的设计提供丰富候选方案。此外,其跨物种知识迁移能力有助于从动物模型到人类疾病的药效关联研究,加速从靶点发现到临床前验证的转化过程。

      3、合成生物

      除了解析基因组内在逻辑,Evo2还具备生成全新DNA序列的能力。通过捕捉从单核苷酸到百万碱基对级别的长程依赖关系,Evo2在生成受生殖支原体、人类线粒体及酵母染色体启发的序列实验中展现出高度自然和连贯的设计效果。这为构建定制化的合成生物系统提供了全新工具:科研人员可基于Evo2设计包含调控元件、tRNA、rRNA等功能模块的完整基因组,从而实现从单细胞微生物到复杂多细胞系统的精准生物工程构建。

      此外,关于模型应用中的伦理与安全风险,其基础数据集已排除了感染人类及其他复杂生物体的病原体,并确保模型不会针对此类问题生成有效答案。

      Evo2与其他AI生物学模型的互补性

      目前,除Evo2之外,生物领域内还有ESM-3等蛋白质语言模型和AlphaFold等结构预测工具。ESM-3侧重于通过海量蛋白质序列数据预测蛋白质结构与设计新型分子,而AlphaFold专注于单个蛋白质的三维结构预测。

      相比之下,Evo2以基因组“语言”为核心,既能处理编码区,也能解析非编码区,捕捉跨越数十万乃至上百万碱基对的长程依赖关系。这使得Evo2在解析复杂基因调控、预测突变效应及生成生物学合理性长序列方面展现出无可比拟的优势,从而与其他模型形成优势互补,共同推动从单一蛋白质设计到整体基因组乃至细胞系统建模的革命性进展。
      挑战与展望
      尽管Evo2在数据规模、架构设计及核心能力上取得显著突破,但在实验验证、模型泛化和跨尺度整合等方面仍面临挑战。未来,需通过大规模体内外实验验证生成序列的生物功能,进一步完善跨物种知识迁移机制,并与转录、蛋白质折叠等多层次生物学模型融合,实现从基因组设计到细胞系统构建的全链条智能化应用。
      Evo2作为迄今公开发布的最大AI生物学模型,凭借海量数据训练、创新的StripedHyena 2架构以及在基因突变精准预测、基因组级序列生成和跨物种知识迁移等方面的核心能力,正引领着从基因组解析到合成设计的生物学革命。

      尽管未来在实验验证和多尺度融合方面仍需持续探索,但Evo2已为构建智能、高效的生物系统设计平台奠定了坚实基础,并为全球科研人开启了进一步探索生物科技创新的新途径。

      参考资料:
      1、http://www.nature.com/articles/d41586-025-00531-3
      2、http://news.stanford.edu/stories/2025/02
      3、http://arcinstitute.org/manuscripts/Evo2

      关于VectorBuilder云舟生物


      VectorBuilder云舟生物是世界知名分子生物学家蓝田博士创办的基因递送领军企业,在全球设有10余家子公司和办事处,2023年晋升为全球独角兽企业。

      云舟生物独创“载体家”平台,开启了个性化基因载体的商品化时代;目前已赋能全球90多个国家和地区,为超过4500家顶尖科研院校和制药公司提供服务,在QS前100高校的客户覆盖率达到了90%,全球TOP30药企的客户覆盖率亦超过90%,产品成果的全球文献引用量逾5000篇。

      云舟生物的基因药物CRO、CDMO项目遍布北美、欧洲、日本等多个国家和地区,已成功助力全球数十个项目成功开展IIT或IND研究,其中GMP级别的质粒和慢病毒载体已获得美国FDA的IND正式批准,用于在美国的多中心临床试验。

      云舟生物致力于系统性攻克基因递送行业的关键技术瓶颈,为行业和世界创造不可取代的价值。


       
                   
       
                   
      *版权声明:本网站所转载的文章,均来自互联网,旨在传递更多信息。鉴于互联网的开放性和文章创作的复杂性,我们无法保证所转载的所有文章均已获得原作者的明确授权。如果您是原作者或拥有相关权益,请与我们联系,我们将立即删除未经授权的文章。本网站转载文章仅为方便读者查阅和了解相关信息,并不代表我们认同其观点和内容。读者应自行判断和鉴别转载文章的真实性、合法性和有效性。
      AI+生命科学全产业链智能数据平台
      综合评分:0

      收藏

      发表评论
      评论区(0
        yl23455永利官网企业版
        50亿+条医药数据随时查
        7天免费试用
        体验产品
        摩熵数科开放平台

        最新报告

        更多
        • 摩熵咨询医药行业观察周报(2025.06.09-2025.06.15)
          2025-06-15
          26页
        • 摩熵咨询医药行业观察周报(2025.06.02-2025.06.08)
          2025-06-08
          24页
        • 摩熵咨询医药行业观察周报(2025.05.26-2025.06.01)
          2025-06-01
          21页
        • 2025年5月仿制药月报
          2025-05-31
          15页
        • 2025年5月全球在研新药月报
          2025-05-31
          32页
        AI应用帮助
        添加收藏
          新建收藏夹
          取消
          确认