Nature子刊发布空间组学实验设计新方法复旦北理工团队强化学习研究突破
在生命科学全面迈入空间组学的今天,科学家们拥有了前所未有的能力——在细胞甚至亚细胞分辨率下,同时观测成百上千种RNA和蛋白质。然而,这项碘伏性技术的背后,却横亘着一个让所有研究者都头疼的经典难题:面对一张组织切片,宝贵的视场角(FOV)究竟应该选在哪里?
2026年5月25日,来自复旦大学和北京理工大学的研究团队,针对高分辨率空间组学检测成本高昂、耗时漫长的现实瓶颈,在《自然-通讯》(Nature Communications)上发表了他们的全新突破。根据题为“SOFisher: reinforcement learning-guided experiment designs for spatial omics”的论文,他们开发了一个名为SOFisher的强化学习框架。这项研究首次赋予了空间组学实验仪器一种“边走边看、智能寻路”的动态进化能力,有望彻底终结过去那种“盲扫拼图”的低效历史。

SOFisher:如何让AI拥有“科学直觉”?
实验开始前,科学家对组织切片的了解往往仅限于一张宏观的轮廓边界图。在无法透视全貌的情况下,一个核心问题随之而来:AI凭什么能精准预测下一个最有价值的采样点?
SOFisher算法的成立,并非凭空想象,而是建立在两个坚实的生物学假设之上:
- 非随机组织假设:生物组织并非杂乱无章的细胞大杂烩,其内部的细胞表型(如细胞类型、基因表达谱)具有高度规律的空间拓扑结构。
- 地标关联假设:那些科学家苦苦寻找的目标组织地标(TTLs),与其周围微环境中的细胞表型存在着强烈的空间因果或伴生关系。
基于这两点,每一个已被检测过的FOV就不再是孤立的数据点,而变成了一个“引路罗盘”。AI可以通过分析当前FOV内的细胞类型分布,敏锐地判断自己正处于组织的哪个“生态位”,进而推算出关键地标可能隐藏的方向。
SOFisher设计上的巧妙之处,在于它在训练和测试阶段实施了严格的“信息隔离”。训练时,模型使用包含完整细胞类型和靶标标注的数据,学习两者之间的关联规则;到了实际测试阶段,模型则完全“蒙在鼓里”,仅能依靠当前FOV内可观测的细胞类型信息,凭借之前学到的“关联知识”进行自主导航,对靶标的具体位置一无所知。

数据模拟实验:验证核心效能
为了验证框架的有效性,研究团队首先在真实的小鼠初级运动皮层空间转录组数据(64张切片,约30万个细胞)上进行了模拟。他们假设靶标(TTL)以20%的概率出现在特定细胞类型(L45 IT细胞)周围,然后让SOFisher在未知全貌的情况下寻找这些模拟靶标。
结果令人振奋。在50步采样过程中,SOFisher捕获的靶标数量平均比完全随机采样高出约2到5倍。更重要的是,要达到捕获10个靶标的目标,SOFisher所需的采样步数比随机策略减少了约60%。

更值得称道的是,SOFisher展现出了优异的泛化能力。即便是在不同月龄的小鼠大脑切片上进行测试,用某一月龄数据训练出的模型,依然能有效指导其他月龄切片的采样。此外,该框架对不同尺寸的FOV(如150微米、300微米)也表现出良好的兼容性。
单组学数据定位:在真实疾病研究中大显身手
SOFisher最具碘伏性的价值,体现在真实的阿尔茨海默病(AD)数据集应用上。利用预先训练好的SOFisher策略,科学家现在只需要进行成本极其低廉的空间单组学检测(仅识别细胞类型),并在极其有限的几个小FOV上运行。这时,SOFisher就像一个拥有神奇直觉的向导,总能精准地将采样点定位在Aβ斑块和磷酸化Tau蛋白(p-tau)缠结交织的关键病理生态位上。
仅凭这一小部分由AI引导的单组学视野数据,研究团队便成功复现了此前必须依靠大面积、昂贵多组学扫描才能揭示的AD关键致病细胞亚型和基因程序。

为了应对更复杂的生物学场景,团队还推出了SOFisherWR变体(即带重启机制的SOFisher)。它将奖励函数从单一的细胞表型,扩展到了复杂的空间多模式基因表达梯度。当面对结直肠癌组织这种具有极高异质性、目标区域断断续续的“不连续”复杂情况时,AI能够自动触发“重启探索”机制,确保不会漏掉任何一个孤立的肿瘤核心区。
科学直觉揭示的未来
研究团队通过实验证明,使用SOFisher指导采样所获得的单组学数据(仅空间转录组),在分析阿尔茨海默病与野生型小鼠的差异时,所揭示的生物学洞察甚至优于使用传统全切片多组学数据的方法。
但这远非SOFisher潜力的终点。它实际上代表了一种全新的“具身智能”在生物学仪器上的落地范式。可以预见,未来的顶尖生物显微镜或测序仪,将不再只是被动执行预设扫描程序的工具。它们会搭载类似SOFisher这样拥有“科学直觉”的决策大脑,从接触样本的第一刻起,就开始动态地思考、寻找并挖掘那些隐藏在微观世界错综复杂网络中的终极答案。
相关攻略
在生命科学全面迈入空间组学的今天,科学家们拥有了前所未有的能力——在细胞甚至亚细胞分辨率下,同时观测成百上千种RNA和蛋白质。然而,这项碘伏性技术的背后,却横亘着一个让所有研究者都头疼的经典难题:面对一张组织切片,宝贵的视场角(FOV)究竟应该选在哪里? 2026年5月25日,来自复旦大学和北京理工
强化学习训练需找到智能体能力边界附近的“最近发展区”。研究提出PACE方法,直接利用策略参数变化衡量关卡诱导的学习进展,动态生成高价值训练课程。实验表明,PACE在迷宫和开放式任务中显著提升了智能体的零样本泛化能力和持续学习性能。
阿里通义实验室推出强化学习框架EAPO,专注于提升长文本推理的准确性。该框架通过结构化证据推理和多粒度奖励机制,将监督重点转向证据提取过程。基于300亿参数模型训练的EAPO在多项测试中表现优异,综合得分超越更大规模闭源模型,有效降低了证据与推理错误率。
强化学习是一种让智能体通过与环境交互、从试错中学习最优决策策略的人工智能技术。其核心机制类似于训练宠物:做出正确行为给予奖励,错误行为则没有。智能体在模拟或真实环境中不断尝试,根据反馈调整策略,最终找到获得最高累积回报的行动序列。然而,传统强化学习的样本效率低下是公认的难题——智能体往往需要数百万甚
如果你正在本地尝试对大语言模型进行偏好对齐,但被传统RLHF(基于人类反馈的强化学习)的复杂流程、高昂资源消耗和训练不稳定性所困扰,那么DPO(直接偏好优化)或许就是你一直在寻找的轻量化解决方案。它提供了一条更高效、更可控的技术路径。下面,我们将详细拆解在本地环境中实施DPO训练的具体操作步骤与核心
热门专题
热门推荐
软银计划改造大阪工厂以建设大型电池生产线,旨在为自身AI数据中心提供稳定电力支持,减少对外部电网的依赖。该项目预计在未来五年内投入运营,以应对日益增长的AI算力需求。
冬至将至,为便于员工与家人团聚,公司将于12月21日至23日放假三天,24日照常上班。请提前妥善安排工作交接。感谢全体员工一年的辛勤付出,愿大家度过温暖安康的假期,以饱满状态迎接后续工作。
《仙逆:战天道》是一款融合塔防策略与Roguelite随机性的修真题材游戏,高度还原原著剧情与角色。游戏采用动态生成关卡,玩家需灵活搭配神通法宝构建战斗流派。其“死亡成长”机制使失败也能积累永久强化,契合修真主题。目前九游平台福利较为丰富,提供多项开服资源,有助于玩家前期发展。
DeepSeek-V4接口与模型文档于4月24日在官网公布,包含轻量化的flash版与高性能的pro版。此举标志着技术栈趋于成熟开放,旨在向市场传递技术就绪、开放合作的信号,可能影响AI工具生态与行业竞争格局。
学校元旦放假时间为2024年1月1日至3日,共三天,1月4日返校上课。假期需注意个人安全,合理安排休息与学习,及时调整作息。借助智能办公工具可提升通知效率,确保信息准确传达。预祝大家度过平安充实的假期。





