华人团队打造生物AI架构师,让生物AI更懂生命语言
近日,美国弗吉尼亚理工大学博士生方燚和所在团队开发出一款名为 BIOARC 的智能系统,能够自动设计出来最适合处理生物数据的神经网络模型。简而言之,它是生物学自己的 AI 建筑师,能够设计出来真正理解生物密码的模型结构。
它的核心思想是:无需依靠人工猜测,而是让 AI 自己探索成千上万的不同的模型结构,从中找出来最适合处理某类生物数据的那一个。

图 | 方燚(来源:方燚)
方燚告诉 DeepTech:“BIOARC 仅需相当于传统 Transformer 模型约二十分之一的参数量,即可实现更好的性能。从创新性角度看,这可能是首次采用数据驱动的方式,系统探索并确定适用于生物序列建模的最优架构。以往的设计多基于直觉和经验,而我们首次实现了通过自动化搜索来发现高效架构。”
那么,BIOARC 是怎么做到的?我们都知道假如一名人类设计师要设计一栋房子,那么至少在设计师的草图上,房间的大小、位置和连接方式都可以变化。BIOARC 也是这样,它可以把 AI 模型拆为几种基础的板块。
第一个板块是卷积神经网络,其非常擅长捕捉局部特征,就像放大镜一样可以看清楚 DNA 上的片段模式;第二个板块是 Transformer,其非常擅长理解长远距离的关联,就像望远镜一样可以看清楚基因中相隔很远的区域是如何互动的;第三个板块是 Hyena 和 Mamba,它们是两种比较新的模型,能够更加高效地处理超长序列。
BIOARC 所使用的模型比当前流行的大型生物 AI 模型要小很多,但是表现却更加优秀。在一些 DNA 任务上,BIOARC 模型的大小只有传统模型的二十分之一,但是效果却能得到显著提升。这说明:不是模型越大越好,而是结构越合适越好。
比如,在处理 DNA 序列的时候,BIOARC 发现高性能模型常常呈现出一种三层结构:先使用 Hyena 块捕捉长距离关系,再使用 Transformer 块理解复杂上下文,最后使用卷积神经网络块来提取关键局部特征。这种组合就像先观看整幅地图,再分析重要区域,最后聚焦的关键地标,一步步地理解整个序列的能力。
BIOARC 不仅能够设计模型,还可以充当顾问的角色。科学家们经常面临新的任务:比如分析某种病毒的 RNA,或者预测某个罕见蛋白质的结构。以前,他们得自己尝试很多模型,不仅费时而且费力。现在,他们只需要把任务描述输入 BIOARC 系统,它就能从知识库中找到类似的任务,并推荐之前表现最好的几种模型结构,从而可以大大节约研究时间和实验时间。
同时,BIOARC 内部还有一个智能助理系统,能够理解那些科学家使用自然语言描述的任务,然后进行语义匹配,而非只进行简单的关键词搜索。这意味着即使你描述得不太专业,它也能明白你的需求,并能找到最相关的历史案例和模型方案。

(来源:https://arxiv.org/abs/2512.00283)
我们当前使用的 AI 大多使用的是 Transforme 模型,它最初是为处理人类语言而设计的。但是,生物数据比如 DNA 序列或蛋白质结构,和人类语言是完全不同的。前者不像句子那样有着明确的单词和语法,而是由一系列化学密码组成,其间隐藏着复杂的空间结构和远程关联、
举个简单的例子,在英文句子中单词“猫”后面常接“抓老鼠”,这种关系是局部的和有顺序的。但是,在 DNA 中一个基因的启动区域可能和几千个碱基意外的另一个区域发生相互影响之后,才可以启动生命活动。如果直接使用处理语言的 AI 模型去读 DNA,就像使用英文语法去理解一段音乐乐谱一样,虽然都是符号,但是规则完全不同,效果自然也就不好。

(来源:https://arxiv.org/abs/2512.00283)
而本次技术则具有广泛的应用前景。任何涉及蛋白质或 DNA 序列分析的场景都可能受益,例如对特定物种的 DNA 进行分类,或预测蛋白质结构。此外,由于此次发现的架构具有一定可解释性,未来亦有望帮助揭示更多潜在的生物学规律。
谈及本次技术和 AlphaFold 等已有工具的关系,方燚表示:“AlphaFold 属于生成式模型,需将序列映射到潜空间进行结构生成。我们的工作则能帮助构建更优的序列编码器,从而更有效地将蛋白质或 DNA 映射到统一的表征空间中,与现有工具形成功能上的互补与增强。”

(来源:https://arxiv.org/abs/2512.00283)
他继续说道:“关于后续研究计划,我们希望将当前方法拓展到更多模态上。目前工作集中于 DNA 和蛋白质序列,下一步计划将其应用于基因表达值序列等数据类型。另一个方向是,当前研究主要针对单模态架构,未来我们也将探索多模态架构,例如在同一模型中处理多种数据类型,并研究不同模态间是否存在最优的架构组合方式。”
参考资料:
相关论文 https://arxiv.org/abs/2512.00283
运营/排版:何晨龙
相关攻略
来源:环球网 科技日报记者 张梦然 植物王国里,一个埋藏了数亿年的核心秘密,最近被来自全球的数十位科学家联手揭开了。 顶级期刊《科学》近期在线发表了一项堪称里程碑的研究。一个由英国剑桥大学桑斯伯里实验室、以色列耶路撒冷希伯来大学、美国冷泉港实验室及马萨诸塞大学阿默斯特分校等机构牵头的大型国际合作项目
高精度测序技术问世,首次绘制大肠杆菌NAD加帽RNA高分辨率图谱 来源:科技日报 科技日报记者 夏凡 近日,一项来自浙江万&里学院、香港浸会大学及宁波东方理工大学的研究,为微生物RNA研究领域带来了关键突破。团队开发出一种名为pNAD-seq的高精度测序技术,成功绘制出大肠杆菌NAD加帽RNA的最高
INSPATIO-WORLD:将任意视频转化为可自由探索的沉浸式四维世界 这项由浙江大学等顶尖研究机构联合开发的突破性技术,其详细技术报告已于2026年4月发布于预印本平台arXiv,论文编号为arXiv:2604 07209。研究团队将这一创新系统命名为INSPATIO-WORLD,其核心目标直指
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
现实版“缸中之脑”来了?在实验室的培养皿里,一簇大鼠脑细胞在实时电刺激回路训练下,学会了生成正弦波、三角波以及混沌信号。这项发表于 PNAS 的研究来自日本东北大学(Tohoku Universit
热门专题
热门推荐
苹果MacStudio库存见底,预示新款即将发布。外观预计延续经典紧凑设计,接口布局不变。核心升级为M5Max和M5Ultra芯片,性能大幅提升,但内存供应可能受限。固态硬盘速度有望翻倍。作为苹果专业桌面新旗舰,其起售价可能小幅上调,WWDC大会可能是发布窗口。
对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户
自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的
4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的
当AI智能体不仅能说会道,还能帮你订餐、写报告,甚至用周杰伦的风格唱首歌时,汽车行业的竞争焦点,已经悄然从硬件参数转向了软件生态。这届北京车展,就是最好的证明。 “你能让它用周杰伦那种吐字不清的风格,唱首歌吗?”在火山引擎的展台,一位体验者向工作人员提出了这个有趣的要求。指令下达后,座舱里的“豆包”





