清华团队研发DeepPrune:为AI模型瘦身,提升推理效率新方法
在处理复杂问题时,人工智能系统通常采用并行推理策略——同时生成多条推理路径,从中筛选出最优解。但最新研究发现,这种看似高效的方法存在严重缺陷:超过80%的并行推理最终会得出相同结论,导致大量计算资源耗费在重复劳动上。这种现象如同30名学生解答同一道数学题,其中25人提交了几乎相同的解题步骤,仅有5人提供了差异化的解题思路。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
由清华大学与上海科技大学联合研发的DeepPrune技术,为解决该问题提供了创新方案。研究团队将AI推理过程比作果树生长,指出传统方法放任所有"枝条"自由生长,而DeepPrune则如同经验丰富的园丁,能在枝条发育早期识别出哪些会结出相同果实,从而精准修剪冗余枝条。实验数据显示,该方法可使计算资源消耗减少80%以上,部分场景下甚至达到91.6%的削减率。
研究团队选取DeepSeek-8B、Qwen3-4B等四种先进AI模型进行测试,要求每个模型针对数学和科学问题同时生成16个推理过程。结果显示,GLM-4.5-Air模型生成的推理对中,94.5%得出相同结论;即便是表现最佳的DeepSeek模型,也有76%的推理过程产生重复结果。这种普遍存在的冗余现象,促使研究团队开发专门的"推理相似度判断专家"。
该判断系统的训练过程颇具挑战性。研究团队从数学竞赛题库中选取758个问题,使用特定模型为每个问题生成16个推理路径,最终获得约8万对推理过程比较数据。为解决数据不平衡问题(相同结果样本占80%),团队采用"焦点损失"技术强化模型对困难案例的学习,同时运用"过采样"技术增加少数类样本数量。经过优化,判断系统的准确率达到87.01%,在控制误判率20%的情况下,仍能正确识别81.86%的差异化推理路径。
在实际应用中,研究团队设计了"贪心聚类"在线算法。当新推理过程生成时,系统会将其与现有"文件夹"中的内容进行相似度比对。若相似度超过阈值(设为0.5),则归入相应文件夹;若不匹配,则创建新文件夹。该算法通过限制最大文件夹数量(32个)和随机选取代表性样本(最多10个)进行对比,既保证了判断效率,又避免了过度修剪。最终答案采用多数投票制,从包含最多相似推理的文件夹中选取样本完成推理。
实验验证环节,研究团队在AIME 2024、AIME 2025和GPQA三个竞赛数据集上,对DeepSeek-8B、Qwen3-32B和GPT-OSS-20B三种模型进行测试。与传统"生成512个推理过程后投票"的方法相比,DeepPrune在保持准确率相当的情况下,计算量显著减少。特别是在Qwen3-32B模型处理AIME 2025问题时,计算量削减91.4%的同时,准确率从80%提升至90%。与基于置信度的早停方法DeepConf相比,DeepPrune在计算量减少和准确性维持方面均表现更优。
技术细节方面,研究团队发现采用"推理步骤对齐"的截取方法(基于"因此""所以"等逻辑标志词)比简单固定长度截取更有效,准确率提升1.45个百分点。消融实验证实,焦点损失与过采样技术的组合使用至关重要,单独应用任何一种技术都无法达到最佳效果。相似度阈值设置为0.5时,系统能在效率提升与答案多样性间取得良好平衡。
尽管DeepPrune展现出显著优势,研究团队也指出其局限性。当前判断系统仅在特定模型推理数据上训练,对差异较大的模型架构适应性有待验证;贪心聚类算法可能因早期相似性判断失误而导致局部最优决策;判断专家自身的计算开销在简单推理任务中占比可能较高;相似度阈值需根据具体任务调整,增加了系统部署复杂度。这些发现为后续研究指明了改进方向。
对普通用户而言,该技术意味着未来移动设备可能运行更强大的AI助手,在线服务响应速度将显著提升。在科研领域,药物设计、工程优化等需要大量并行推理的任务,将因计算效率提升而加速突破。技术细节可查阅论文编号arXiv:2510.08483v1的完整研究报告。
热门专题
热门推荐
任天堂吉祥物马里奥的宿敌酷霸王解析:为何这位反派深受喜爱?宫本茂通过电影揭示角色深层魅力 谈到任天堂的经典形象,马里奥与酷霸王这对宿敌的组合可谓深入人心。一边是永不放弃拯救碧姬公主的英雄,另一边则是不断制造混乱的恶棍,故事框架虽简单却历经三十余年依然人气不减。但仔细品味,酷霸王这个角色颇为值得玩味:
洛克王国神圣狮鹫图鉴:揭秘悬崖之王的飞行奥秘 当冒险者们踏上洛克王国的高耸悬崖,便能感受到猛烈的疾风。呼啸而过的气流远超平地的强度,然而正是这片常年不息的风域,成为了狮鹫一族最卓越的自然训练场。在这个独特的环境中,它们锤炼出了对抗强风与复杂气流的顶级飞行技巧,其背后的生存智慧,实在值得探险者们深入探
4月2日消息,三星电子最新表示,自2019年起连续七年位居全球第一。根据三星援引的市场调研公司IDC数据,2025年三星电子在全球游戏电竞显示器市场的收入占比达到18 9%。从销量来看,2025年三
内存市场因为人工智能高带宽内存的蓬勃需求而陷入供应紧张,传统内存也因大量产线被占用而供不应求。在这种大背景下,苹果似乎采取了一种争议性的商业手段,来进一步扩大其市场份额。据韩国消息人士透露,苹果公司
4月6日消息,近期内存市场风声鹤唳,现货价格小幅回调就引发了内存价格崩盘”的论调,甚至带动相关个股集体下跌,但行业龙头三星却完全不为所动,反而按计划继续上调DRAM内存产品价格,用实际行动打破了市场





