Evo 2作家、斯坦福计较生物学家 Brian Hie:AI可发现东谈主类无法看到的格式

发布日期:2025-02-23 13:56    点击次数:188

剪辑:ScienceAI

最近,科学家发布了有史以来最大的生物学东谈主工智能(AI)模子 ——Evo 2。

该模子基于 128,000 个基因组进行测验,涵盖了从东谈主类到单细胞细菌和古细菌的生命之树,不错重新启动编写所有这个词染色体和小基因组。它还不错和会现存的 DNA,包括与疾病关系的难以说明的「非编码」基因变体。

Evo 2 由好意思国 Arc 接洽所(Arc Institute)和斯坦福大学的接洽东谈主员以及芯片制造商 NVIDIA 共同设备,科学家不错通过线上界面使用,也不错免费下载其软件代码、数据和复制模子所需的其他参数。

早在前年 11 月,Evo 的第一个版块 (在 80,000 种细菌、古细菌和病毒的基因组上进行测验)就登上了《Science》杂志封面。

Evo 及 Evo 2 的蹂躏是可想而知的,接洽团队是如何达成这些蹂躏的?

在 Evo 2 发布之前,外媒《Quanta Magazine》曾采访 Evo 接洽团队主要成员、论文通讯作家 —— 斯坦福大学计较生物学家 Brian Hie,采访围绕 DNA 与东谈主类话语之间的相似之处,Evo 能作念什么和不可作念什么等话题伸开。Brian Hie 暗示:「东谈主类很难和会生物序列」,而「Evo 发现了东谈主类无法看到的格式」。

图示:Evo 团队中枢成员,Brian Hie(中)。

ScienceAI 对《Quanta Magazine》访谈中枢内容进行了不改换应允的编译、整理,内容如下。

是什么让你以为 DNA 不错像话语一样处理?

DNA 自身像东谈主类当然话语一样是序列化的。它是由闹翻的「token」或构建块构成的序列。咱们将东谈主类当然话语 tokenize 为单词、字母或汉字。在生物学中,一个 token 不错对应一个 DNA 碱基对或一个氨基酸。

就像当然话语一样,DNA 也有其当然结构。这些序列并不是立地的。当然话语中的好多结构也口舌细腻的,可能是朦胧的,况兼一直在变化。相通地,DNA 序列也有一些朦胧性。交流的序列在不同的凹凸文中可能意味着不同的事物。

怎样料想将 LLM 应用于 DNA?

分子生物学的中心律例是一个非凡绚丽的东西。它指出 DNA 编码 RNA,RNA 编码卵白质。是以如若你在 DNA 上测验一个模子,况兼它是一个好模子,你就不错免费获取 RNA 和卵白质的话语建模,因为 DNA 和卵白质序列之间有班师的对应关系。

你还不错在基因组自身上进行测验:基因在基因组上互相相邻。当你测验一个卵白质话语模子时,你基本上会取所有这个词基因组并剪掉所有编码卵白质的部分,然后永别测验所有这些小部分。但这忽略了卵白质方位的庞杂遗传配景。非凡是在微生物基因组中,功能关系的卵白质在基因组上班师相邻,是以这些卵白质编码区域在基因组上的王法很伏击,而在卵白质话语模子中失去了这些信息。

我意志到在更基础的脉络上测验模子 —— 从卵白质着落到 DNA—— 不错扩展模子的才能。

如何测验 Evo「阅读」DNA?

卵白质和 DNA 话语模子之间的一个伏击区别是模子用于进行下一个碱基对预测的序列长度,咱们称之为「凹凸文长度」。凹凸文长度访佛于一个东谈主一次不错看到的演义的一两页。Evo 是在由好多基因组构成的「演义」上测验的。

这需要一些工夫发展,因为长的凹凸文长度滥用巨额的计较才能。计较需求跟着凹凸文长度的增多呈二次方增长,股指配资但运气的是,已有一些接洽找到了表率来减少长凹凸文所需计较。斯坦福实验室的别称学生帮咱们将关系进展应用到咱们的 DNA 模子中。

Evo 的测验数据集也很伏击。从卵白质话语建模中,我了解到序列各样性很伏击。当向模子展示生命的进化替代有筹算,模子就不错应用这些替代有筹算来学习一般轨则。

你是如何测试 Evo 的,它的进展如何?

咱们给 Evo 提供了具有各样突变的卵白质编码 DNA 序列。任务是预测这些突变的「进化可能性」,即它们在当然界中存在的概率。被以为可能的突变应该在实验室中保持或改善卵白质的功能,不可能的突变应该与功能不良关系。

Evo 莫得任何干于功能的明确学问。它只知谈往日进化中使用了哪些突变。此外,模子仅在 DNA 上进行测验,莫得任何干于 DNA 的哪些部分与卵白质匹配的指引。因此,Evo 必须弄了了 DNA 如何编码卵白质,以及卵白质在基因组上的肇端和闭幕位置。

咱们通过卵白质功能的实验测试对 Evo 得出的可能性进行了评分。咱们发现:如若某个碱基对在 Evo 模子下具有高可能性,那么该碱基对很可能会保持或改善卵白质的功能;如若该碱基对的可能性较低,那么将其插入序列中很可能会龙套卵白质功能。

LLM 容易出错,Evo 是否更准确?

关于 ChatGPT,你但愿它能准确掌持事实。而在生物学中,这些「幻觉」的确不错被视为一种特点而非颓势。如若某个奇特的新序列在细胞中起作用,生物学家会以为这是新颖的。

但 Evo 确乎也会犯错。举例,它可能笔据某个序列预测出一种卵白质结构,但当咱们在实验室中合成这种卵白质时,恶果可能是作假的。

原文集会:https://www.quantamagazine.org/the-poetry-fan-who-taught-an-llm-to-read-and-write-dna-20250205/

阅读最新前沿科技趋势申诉,请造访欧米伽接洽所的“畴昔学问库”

https://wx.zsxq.com/group/454854145828

畴昔学问库是“欧米伽畴昔接洽所”建设的在线学问库平台,储藏的费力范围包括东谈主工智能、脑科学、互联网、超等智能,数智大脑、能源、军事、经济、东谈主类风险等等边界的前沿进展与畴昔趋势。面前领有跨越8000篇伏击费力。每周更新不少于100篇全国范围最新接洽费力。迎接扫描二维码或造访https://wx.zsxq.com/group/454854145828 参加。

截止到12月25日 ”畴昔学问库”精选的100部前沿科技趋势申诉

2024 好意思国众议院东谈主工智能申诉:指引原则、前瞻性提出和政策提案

畴昔当天接洽所:2024 工夫趋势申诉 - 迁徙性,机器东谈主与无东谈主机篇

Deepmind:AI 加快科学创新发现的黄金时期申诉

Continental 大陆集团:2024 畴昔出行趋势调研申诉

埃森哲:畴昔生活趋势 2025

国际原子能机构 2024 聚变要害要素申诉 - 聚变能发展的共同愿景

哈尔滨工业大学:2024 具身大模子要害工夫与应用申诉

爱念念唯尔(Elsevier):洞悉 2024:科研东谈主员对东谈主工智能的作风申诉

李飞飞、谢赛宁新作「空间智能」 等探索多模态大模子性能

欧洲议会:2024 欧盟东谈主工智能伦理指南:配景和膨胀

通往东谈主工超智能的谈路:超等对皆的全面综述

清华大学:和会全国已经预测畴昔?全国模子轮廓综述

Transformer 发明东谈主最新论文:应用基础模子自动搜索东谈主工生命

兰德公司:新兴工夫监督框架发展的近况和畴昔趋势的工夫监督申诉

麦肯锡全球接洽院:2024 年全球前沿动态(数据)图表呈现

兰德公司:新兴工夫边界的全球态势综述

前瞻:2025 年东谈主形机器东谈主产业发展蓝皮书 - 东谈主形机器东谈主量产及营业化要害挑战

好意思国国度标准工夫接洽院(NIST):2024 年度好意思国制造业统计数据申诉(英文版)

罗戈接洽:2024 决策智能:值得轻柔的决策翻新接洽申诉

好意思国航空航天行家委员会:2024 十字街头的 NASA 接洽申诉

中国电子工夫标准化接洽院 2024 扩展履行 XR 产业和标准化接洽申诉

GenAI 引颈全球科技变革轻柔 AI 应用的接续探索

国度低空经济融创中心中国上市及新三板挂牌公司低空经济发展申诉

2025 年计较机行业年度策略从 Infra 到 AgentAI 创新的无穷前沿

多模态可说明东谈主工智能综述:往日、当今与畴昔

【斯坦福博士论文】探索自监督学习中对比学习的表面基础

《机器智能体的夹杂说明模子》最新 128 页

Open AI 处罚 AI 智能体的实践

畴昔生命接洽院 FLI2024 年 AI 安全指数申诉 英文版

兰德公司 2024 东谈主工智能表情失败的五大根柢原因过头生效之谈 - 幸免 AI 的反格式 英文版

Linux 基金会 2024 去中心化与东谈主工智能申诉 英文版

脑机接口申诉脑机接口机器东谈主中的东谈主机交换

斡旋国贸发会议 2024 年全球科技创新互助促发展接洽申诉 英文版

Linux 基金会 2024 年全国开源大会申诉塑造东谈主工智能安全和数字环球家具互助的畴昔 英文版

Gartner2025 年伏击战术工夫趋势申诉 英文版

Fastdata 极数 2024 全球东谈主工智能简史

中电科:低空飞翔系统白皮书,拥抱低空经济

迈向科学发现的生成式东谈主工智能接洽申诉:进展、机遇与挑战

哈佛博士论文:构建深度学习的表面基础:实证接洽表率

Science 论文:面对 “镜像生物” 的风险

镜面细菌工夫申诉:可行性和风险

Neurocomputing 不受扫尾地非凡东谈主类智能的东谈主工智能可能性

166 页 - 麦肯锡:中国与全国 - 和会变化中的经济策动(完好版)

畴昔生命接洽所:《2024 东谈主工智能安全指数申诉》

德勤:2025 工夫趋势申诉 空间计较、东谈主工智能、IT 升级。

2024 全国智能产业大脑演化趋势申诉(12 月上)公开版

联邦学习中的成员推断报复与防卫:综述

兰德公司 2024 东谈主工智能和机器学习在天外边界感知中的应用 - 基于两项东谈主工智能案例英文版

Wavestone2024 年法国工业 4.0 晴雨表市集趋势与警戒响应 英文版

Salesforce2024 年制造业趋势申诉 - 来自全球 800 多位行业决策者对运营和数字化转型的洞悉 英文版

MicrosoftAzure2024 推进应用创新的九大 AI 趋势申诉

DeepMind:Gemini,一个高性能多模态模子家眷分析申诉

师法、探索和自我进步:慢念念维推理系统的复现申诉

自我发现:大型话语模子自我构成推理结构

2025 年 101 项将 (或不会) 塑造畴昔的工夫趋势白皮书

《当然杂志》2024 年 10 大科学东谈主物保举申诉

量子位智库:2024 年度 AI 十大趋势申诉

华为:鸿蒙 2030 愿景白皮书(更新版)

电子行业专题申诉:2025 年万物 AI 濒临的十大待解繁难 - 241209

中国信通院《东谈主工智能发展申诉(2024 年)》

好意思国安全与新兴工夫中心:《跟踪好意思国东谈主工智能并购案》申诉

Nature 接洽申诉:AI 翻新的数据正在穷乏,接洽东谈主员该怎样办?

NeurIPS 2024 论文:智能体不够奢睿怎样办?让它像学徒一样接续学习

LangChain 东谈主工智能代理(AI agent)近况申诉

普华永谈:2024 半导体行业景色申诉发展趋势与驱出发分

觅途商讨:2024 全球东谈主形机器东谈主企业画像与才能评估申诉

好意思国化学会 (ACS):2024 年纳米材料边界新兴趋势与研发进展申诉

GWEC:2024 年全球风能申诉英文版

Chainalysis:2024 年加密货币地舆申诉加密货币接管的区域趋势分析

2024 光刻机产业竞争模样国产替代空间及产业链关系公司分析申诉

全国经济论坛:智能时期,列国对畴昔制造业和供应链的准备进度

兰德:《保护东谈主工智能模子权重:小心盗窃和滥用前沿模子》-128 页申诉

经合组织 成年东谈主是否具备在不断变化的全国中糊口所需的手段 199 页申诉

医学应用中的可说明东谈主工智能:综述

复旦最新《智能体模拟社会》综述

《全球导航卫星系统(GNSS)软件界说无线电:历史、现时发展和标准化责任》最新综述

《基础接洽,致命影响:军事东谈主工智能接洽资助》申诉

欧洲科学的畴昔 - 100 亿地平线接洽主义

Nature:欧盟正在酿成一项科学大型主义

Nature 欧洲科学的畴昔

欧盟科学 —— 下一个 1000 亿欧元

欧盟向全国号令 加入咱们价值 1000 亿欧元的接洽主义

DARPA 主动社会工程防卫主义(ASED)《小心删除信息和捕捉无益步履者(PIRANHA)》工夫申诉

兰德《东谈主工智能和机器学惯用于天外域感知》72 页申诉

构建通用机器东谈主生成范式:基础法子、扩展性与策略学习(CMU 博士论文)

全国贸易组织 2024 智能贸易申诉 AI 和贸易行动如何双向塑造 英文版

东谈主工智能行业应用建设发展参考架构

波士顿商讨 2024 年欧洲天神投资景色申诉 英文版

2024 好意思国制造业主义战术主义

【新书】大限度话语模子的诡秘与安全

东谈主工智能行业国际市集寻找 2025 爆款 AI 应用 - 241204

好意思国环保署 EPA2024 年版汽车趋势申诉英文版

经济学东谈主智库 EIU2025 年行业揣测申诉 6 大行业的挑战机遇与发展趋势 英文版

华为 2024 迈向智能全国系列工业相聚全谀媚接洽申诉

华为迈向智能全国白皮书 2024 - 计较

华为迈向智能全国白皮书 2024 - 全光相聚

华为迈向智能全国白皮书 2024 - 数据通讯

华为迈向智能全国白皮书 2024 - 无线相聚

安全牛 AI 时期深度伪造和合成媒体的安全要挟与对策 2024 版

2024 东谈主形机器东谈主在工业边界发展机遇行业壁垒及国产替代空间分析申诉

《2024 年 AI 近况分析申诉》2-1-3 页.zip

万物智能演化表面,智能科学基础表面的新探索 - newv2

全国经济论坛 智能时期的食品和水系统接洽申诉

生成式 AI 时期的深伪媒体生成与检测:综述与揣测

科尔尼 2024 年全球东谈主工智能评估 AIA 申诉追求更高脉络的锻练度限度化和影响力英文版

计较机行业专题申诉 AI 操作系统时期已至 - 241201

Nature 东谈主工智能距离东谈主类水平智能有多近?

Nature 洞开的东谈主工智能系统本色上是闭塞的

斯坦福《统计学与信息论》课本,668 页 pdf

国度信息中心华为城市一张网 2.0 接洽申诉 2024 年

国际清理银行 2024 生成式 AI 的崛起对好意思国劳能源市集的影响分析申诉 浸透度替代效应及对不对等景色英文版

大模子如何判决?从生成到判决:大型话语模子动作裁判的机遇与挑战

毕马威 2024 年全球半导体行业揣测申诉

MR 行业专题申诉 AIMR 空间计较界说新一代超等个东谈主终局 - 241119

DeepMind 36 页 AI4Science 申诉:全球实验室被「AI 科学家」指数级承袭

《东谈主工智能和机器学习对相聚安全的影响》最新 273 页

2024 量子计较与东谈主工智能无声的翻新申诉

畴昔当天接洽所:2024 工夫趋势申诉 - 广义计较篇

科睿唯安中国科学院 2024 接洽前沿热度指数申诉

文本到图像合成:十年回首

《以东谈主为中心的大型话语模子(LLM)接洽综述》

经合组织 2024 年数字经济揣测申诉加强连通性创新与信任第二版

波士顿商讨 2024 全球经济体 AI 锻练度矩阵申诉 英文版

和会全国已经预测畴昔?全国模子的轮廓综述

GoogleCloudCSA2024AI 与安全景色调研申诉 英文版

英国制造商组织 MakeUK2024 英国工业战术愿景申诉从办法到膨胀

花旗银行 CitiGPS2024 当然环境可接续发展新前沿接洽申诉

国际可再生能源署 IRENA2024 年全球表象行动申诉

Cell: 物理学和化学 、东谈主工智能学问边界的和会

智次方 2025 中国 5G 产业全景图谱申诉