首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
多模态AI统一模型革新肽段质谱解析技术

多模态AI统一模型革新肽段质谱解析技术

热心网友
67
转载
2026-05-27

蛋白质组学研究中,串联质谱(MS/MS)数据的精准解析始终是关键挑战。传统方法主要依赖数据库搜索和从头测序两大路径,但现有模型多局限于特征提取,缺乏一个能够统一打分、深度理解谱图与肽段关联的深度学习框架。这一瓶颈,如今被一项突破性研究——pUniFind模型所攻克。

近期,科研团队提出了大规模蛋白质组学基础模型pUniFind。其核心创新在于,首次实现了开放式端到端肽段-谱图匹配评分与开放式零样本从头测序的统一建模。简而言之,一个模型即可高效完成以往需要多个工具协同的两大核心任务。

该模型的强大源于其训练基础:它在超过1亿条经开放搜索标注的谱图海量数据上进行训练。通过精心设计的跨模态预测任务,pUniFind能够深度对齐质谱谱图与肽段序列这两种不同模态的信息,从而实现对肽段序列的精准预测和高效检索。

实际效果如何?数据最具说服力。凭借卓越的开放式评分能力,pUniFind在多个测试数据集上的肽段鉴定数量均超越了传统搜索引擎。尤其在极具挑战的免疫肽组学数据分析中,其鉴定数量提升了42.6%,增幅显著。

其从头测序能力更值得关注。团队设计了两种流程以适应不同场景。在修饰富集的从头测序任务中,即便搜索空间扩大300倍,pUniFind仍比现有方法多识别出60%的肽段-谱图匹配。在常规从头测序中,它额外恢复了38.5%的肽段,其中包含1891条能映射到基因组却不在参考蛋白数据库中的“隐藏”肽段,这对于新抗原发现等研究至关重要。

此外,团队开发的基于深度学习特征的质量控制模块,将测序结果与RNA-Seq证据的一致性从65.4%大幅提升至85.0%。可以说,pUniFind构建了一个统一且可扩展的深度学习框架,在鉴定灵敏度、修饰覆盖度和结果可信度方面均实现了跨越式提升。

要理解pUniFind的价值,需先回顾蛋白质组学数据分析的困境。串联质谱技术是现代蛋白质组学的基石,但传统解析工具如SEQUEST、MaxQuant、pFind等,其核心依赖于人工设计特征和相对简单的机器学习模型进行肽段-谱图匹配打分。

这种方法存在固有局限:通常假设固定的酶切规则,且仅支持有限的常见翻译后修饰。一旦遇到非特异性酶切或未知修饰,其性能便会显著下降。

为突破限制,学界发展了开放搜索技术(如Open-pFind、MSFragger)以更好地识别意外修饰和异常酶切。另一方面,完全无需数据库的从头测序技术在抗体测序、新抗原发现等领域价值独特,催生了DeepNovo、Casanovo等深度学习模型。然而,这些方法往往各自独立,准确率和鲁棒性仍有提升空间。

近年来,深度学习在谱图预测、保留时间预测等单任务上展现出潜力。学界逐渐认识到,数据库搜索和从头测序本质都依赖于对谱图与肽段关系的深度建模。但一直缺乏一个统一框架,能将搜索、测序及质量控制任务整合。与此同时,多任务与多模态学习在计算机视觉、蛋白质设计等领域已证明其强大的泛化能力。

于是,一个清晰的思路应运而生:能否构建一个统一的多模态深度学习模型,一举提升数据库搜索和从头测序能力,推动蛋白质组学解析从“特征工程”时代迈向“端到端学习”新阶段?pUniFind正是对这一问题的完美解答。

方法:统一的多模态预训练框架

pUniFind的架构设计充分体现了“统一”思想。模型核心是分别对肽段序列和MS/MS谱图进行编码,然后通过多个跨模态预训练任务促使它们深度对齐。这些任务包括从头测序、谱图预测及候选肽段排序,让模型从多角度学习谱图与肽段的关联。

为训练此模型,研究团队利用Open-pFind对大规模公开数据进行了重新注释,构建了包含超1亿条肽段-谱图匹配的训练集,庞大的数据规模奠定了其作为“基础模型”的基石。

在模型结构上,谱图编码器需学习谱图的整体特征,并精细理解每个峰可能对应的氨基酸数量、离子类型及肽段长度。肽段编码器则负责生成理论谱图表征。随后,一个联合模态评分器会融合两者的嵌入信息,实现端到端的匹配评分。团队还引入了列表排序策略,增强了模型对候选肽段间相对关系的建模能力,使打分更为精准。

图1:pUniFind 模型整体架构与多任务训练流程。

结果:全面超越的性能表现

在多物种数据集上实现更高肽段鉴定率

研究首先在九个不同物种的数据集上检验了pUniFind的数据库搜索能力。结果显示:在开放搜索模式下,pUniFind在所有数据集上均获得了最高的肽段鉴定数量,相比优秀工具Open-pFind,提升幅度在2%到18%之间。尤其在Vigna mungo和Bacillus subtilis数据中,提升最为显著。

进一步的消融实验揭示了性能提升的来源。当引入从头测序和谱图预测这两个关键跨模态训练任务后,模型在枯草芽孢杆菌数据集上的肽段鉴定能力提升了60%。这有力证明,跨模态学习切实增强了模型对谱图-肽段关联的本质理解。

为评估模型可靠性,团队采用了“诱饵数据库”策略。在混入蜜蜂蛋白作为干扰的实验中,pUniFind即便鉴定出更多肽段,其错误匹配比例仍保持正常甚至更低,表明其高灵敏度并未牺牲准确性,鲁棒性值得信赖。

图2:pUniFind 在九个物种数据集中的数据库搜索表现与修饰肽段分析。

深度学习跨模态训练显著提升修饰肽段识别能力

pUniFind在处理翻译后修饰方面展现出独特优势。在修饰肽段占比高达58.4%的酵母数据集中,其性能提升更为明显。与Open-pFind基于SVM的评分方式不同,pUniFind通过谱图预测任务,能够避免对低频修饰产生不合理惩罚,从而更稳定地识别罕见修饰类型。

在一个包含21种不同修饰的数据集测试中,即使不进行在线优化,pUniFind仍在61.9%的修饰类别中获得了更高的肽段识别数量,显示出对多样化修饰类型的广泛适应能力。

在新型仪器数据上维持高精度

研究也考察了模型在Astral和timsTOF等新型质谱仪数据上的表现。经微调后,pUniFind在Astral数据上的性能相比Open-pFind和MSFragger+MSBooster组合提升了约9%。

在利用代谢标记技术的大肠杆菌数据集中,pUniFind鉴定出的肽段-谱图匹配数量比pFind高10%,比MSFragger+MSBooster高43.9%,同时其缺失定量比例低至0.26%。这表明它不仅在“量”上取胜,在“质”上也保持了高水准。额外的混合物种诱饵测试进一步证实,pUniFind未因训练数据产生明显的标签记忆,其评分策略更为保守可靠。

图3:pUniFind 在 Astral、TIMS 与代谢标记数据中的性能评估。

构建开放式从头测序统一工作流

针对从头测序,团队提出了两种模式:常规模式适用于一般数据集,而富含修饰的模式则针对磷酸化等修饰富集的数据进行了优化。为提升结果可信度,他们还开发了一套基于深度学习特征的过滤策略,综合端到端评分、谱图预测和保留时间等多维度信息,系统性地过滤低可信结果。

图4:pUniFind 开放式 de novo 测序工作流。

在富修饰数据集上显著优于传统方法

在包含21种修饰的基准测试中,pUniFind+pFind组合的平均肽段召回率达到63.8%。即便搜索空间扩大300倍,其性能仍与传统从头测序方法持平,并比pNovo高出60%。

一个关键优势是,pUniFind可以在没有任何先验知识的情况下,同时考虑超过1300种潜在修饰。作为对比,pNovo即使提前告知正确的修饰类型,其召回率也只有47.6%。在修饰水平、序列水平和位点水平三种评估标准下,pUniFind均明显胜出。

更令人印象深刻的是,即使是训练集中样本极少的稀有修饰,pUniFind依然能获得超过60%的肽段召回率,这说明模型对低频事件具备了出色的泛化能力。

图5:pUniFind 在21种 PTM 数据集上的开放式 de novo 测序性能。

在复杂应用场景中取得突破

研究进一步将pUniFind推向更具挑战性的应用场景,如宏蛋白组学和免疫肽组学。在宏蛋白组学数据中,pUniFind比Open-pFind和MSFragger+MSBooster分别多识别出6.3%和29.0%的肽段。

在难度更高的免疫肽组学数据中,其鉴定数量相比MSFragger+MSBooster提高了17.4%,相比Open-pFind更是提高了42.6%。同时,这些新增鉴定谱图的余弦相似度中位数高达0.95,证明新增结果具有很高的可靠性。

在从头测序任务中,pUniFind的肽段召回率达到86.3%,显著高于Casanovo v2的69.1%。研究还发现,模型能识别出大量不存在于参考蛋白数据库、却能映射到人类基因组的HLA肽段,其中1891条满足高可信标准,为新抗原发现提供了宝贵资源。

此外,基于RNA-Seq支持数据集的评估表明,其过滤模块可将结果与RNA-Seq证据的一致性从65.4%大幅提升至85%,极大增强了从头测序结果的可信度。

图6:pUniFind 在免疫肽组学与宏蛋白组学中的应用表现。

讨论与展望

pUniFind研究首次将开放数据库搜索、开放从头测序以及深度学习质量控制统一到一个多模态预训练框架中。通过跨模态预训练,模型实现了对谱图和肽段信息的同步深度理解,完成了真正意义上的端到端肽段-谱图匹配评分。结果表明,这种统一的深度学习框架不仅优于传统的特征工程方法,更展现出替代当前主流评分体系的潜力。

特别是在免疫肽组学、宏蛋白组学等搜索空间巨大、背景复杂的场景中,pUniFind的优势得到了充分体现。此外,它实现的开放式从头测序,使得修饰肽段的测序性能首次达到甚至超过了未修饰肽段的水平,这是一个重要的里程碑。

当然,研究团队也指出了当前模型的局限。例如,在数据库搜索任务中,保留时间信息尚未被充分整合;模型也尚未完全适配数据非依赖采集模式的分析。未来的工作将向大规模DIA数据集拓展,并进一步完善这个统一的谱图解析框架。可以预见,随着数据规模和模型能力的持续增长,蛋白质组学数据分析的自动化与智能化程度将迈向新的高度。

参考资料

Zhao, J., Mao, P., Wang, K. et al. A large-scale unified deep learning model for peptide mass spectrum interpretation trained on multimodal data. Nat Mach Intell (2026).

https://doi.org/10.1038/s42256-026-01234-8

来源:https://cloud.tencent.com/developer/article/2674371
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

多模态AI统一模型革新肽段质谱解析技术
AI资讯
多模态AI统一模型革新肽段质谱解析技术

pUniFind是多模态蛋白质组学基础模型,首次统一开放式肽段-谱图评分与零样本从头测序。基于超1亿条谱图训练,通过跨模态学习对齐谱图与序列信息。实验显示其在多个数据集中鉴定肽段数量超越传统方法,免疫肽组学提升42 6%,并能高效识别修饰与隐藏肽段,显著提升鉴定灵敏度与可信度。

热心网友
05.27
英特尔Bartlett Lake酷睿9 273PQE游戏性能实测:12性能核落后四年前i9-13900K
科技数码
英特尔Bartlett Lake酷睿9 273PQE游戏性能实测:12性能核落后四年前i9-13900K

近期,PC Games Hardware 进行了一项引人关注的性能对比测试,其结果令人颇感意外:英特尔新一代 Bartlett Lake 系列的旗舰型号酷睿9 273PQE,在多项游戏基准测试中,竟然未能超越四年前发布的酷睿 i9-13900K。 单从规格参数来看,酷睿9 273PQE 其实颇具亮点

热心网友
05.27
软银投资Cristal AI是战略布局还是风险博弈
AI资讯
软银投资Cristal AI是战略布局还是风险博弈

5月12日,市场研究机构Omdia发布了一份由分析师夏茂森撰写的最新报告,深入剖析了软银与OpenAI成立合资公司这一重磅动作。报告的核心观点很明确:软银这次押注名为“Cristal Intelligence”的AI平台,绝非一时兴起,而是一场融合了宏大战略愿景与精密风险计算的复杂棋局。 事情是这样

热心网友
05.26
麒麟系统安装IntelliJ IDEA插件扩展开发功能
系统平台
麒麟系统安装IntelliJ IDEA插件扩展开发功能

在麒麟操作系统上使用 IntelliJ IDEA 进行软件开发时,若遇到缺少特定语言支持、框架集成或辅助功能的情况,这通常并非操作系统或 IDE 本身的缺陷,而往往是由于相关插件未安装、未启用,或与当前 IDE 版本及系统架构不兼容所致。无需担忧,遵循以下步骤,即可轻松为你的 IntelliJ ID

热心网友
05.25
英特尔CPU路线图曝光三代接口与P核E核设计革新
科技数码
英特尔CPU路线图曝光三代接口与P核E核设计革新

英特尔未来处理器将采用混合制造策略:CPU核心由台积电代工,其余模块自产。2028年移动平台RazorLake将首发14A工艺,桌面端将推出高性价比游戏处理器及大核显 外置GPU型号。后续TitanLake采用统一核心架构,性能核兼具能效核功能。超线程技术预计2029年回归消费级市场,并计划推出新插槽。

热心网友
05.25

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI数据挖掘核心技术解析与实战应用指南
AI教程
AI数据挖掘核心技术解析与实战应用指南

AI数据挖掘能从海量数据中提炼关键洞察。其核心技术包括:聚类分析将相似数据自动分组以发现模式;分类算法基于历史数据预测新数据类别;关联规则学习揭示数据项间的共生关系;回归分析则量化变量间影响并预测数值趋势。掌握这些方法对决策至关重要。

热心网友
05.27
成都启用全国首个机器人配送社区外卖无需进楼
业界动态
成都启用全国首个机器人配送社区外卖无需进楼

外卖配送的“最后100米”难题,在成都一处青年公寓社区找到了创新解决方案。全国首个实现配送机器人常态化运营的住宅区,近日于成都正式落地。 社区内的配送任务由10台名为“享递Ultra”的机器人承担,它们来自成都高新区的一家科技企业。自今年1月启动试运行以来,这些机器人已累计完成近3万单配送任务,平均

热心网友
05.27
Stable Diffusion图片信息本地解析教程 保护隐私安全提取提示词
AI教程
Stable Diffusion图片信息本地解析教程 保护隐私安全提取提示词

Stable Diffusion 法术解析工具:本地读取AI绘画生成信息的专业解决方案 在利用Stable Diffusion进行AI绘画创作或学习时,你是否常常面临这样的难题:遇到一张效果出色的SD作品,却无法获知其生成所用的具体“咒语”(Prompt)、模型参数等关键信息?同时,出于对作品版权和

热心网友
05.27
极限竞速地平线6正式发售 获2026年最高游戏评分
游戏资讯
极限竞速地平线6正式发售 获2026年最高游戏评分

赛车游戏爱好者们,重磅喜讯来袭!微软旗下王牌竞速系列最新力作《极限竞速:地平线6》现已全球正式发售,同步登陆PC与Xbox Series X|S平台,并首发即加入XGP游戏库。这款备受期待的开放世界赛车游戏,一经推出便交出了一份堪称完美的答卷。 权威游戏媒体IGN毫不吝啬地给出了满分评价,其评语写道

热心网友
05.27
MOCA币购买指南:安全买入流程与挂单卖出策略
web3.0
MOCA币购买指南:安全买入流程与挂单卖出策略

MocaNetwork作为新兴的Web3社交层项目,其代币MOCA的购买需要谨慎规划。本文梳理了从前期准备到买入、持有及卖出的完整流程,重点介绍了中心化交易所直接购买、通过跨链桥转移资产以及使用去中心化交易所挂单等几种主流方式,并分析了不同卖出策略的适用场景,旨在帮助参与者更稳健地操作。

热心网友
05.27