首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
复旦与顶尖高校联合研发AI模型:学会工具,如侦探般查证

复旦与顶尖高校联合研发AI模型:学会工具,如侦探般查证

热心网友
95
转载
2026-01-29


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由复旦大学、同济大学、新加坡国立大学、华盛顿大学、电子科技大学以及香港中文大学联合开展的研究发表于2026年1月,论文编号为arXiv:2601.18631v1,为多模态大语言模型的工具使用能力带来了重大突破。

现代人工智能模型就像是刚学会看图识字的学生,虽然能够理解图像内容,但在面对需要多步推理的复杂视觉任务时往往力不从心。比如让AI规划一条从起点到终点的安全路径,既要避开障碍物,又要找到最短路线,或者让AI完成拼图游戏,需要理解图像的整体结构和局部细节。这些任务对人类来说相对简单,但对AI来说却是巨大挑战。

正如人类在遇到超出自身能力的问题时会借助工具一样,研究团队提出了一个革命性的想法:让AI模型学会主动使用各种视觉工具来解决复杂问题。这就好比教会一个学生不仅要会做题,还要知道什么时候该用计算器,什么时候该用尺子,什么时候该用放大镜。

研究团队开发的AdaReasoner系统就像是培养了一位经验丰富的侦探。这位AI侦探不仅具备基本的观察能力,更重要的是,它学会了在破案过程中灵活运用各种侦查工具。当遇到需要精确定位的线索时,它会使用"放大镜工具";当需要追踪路径时,它会使用"路径分析工具";当需要识别文字信息时,它会使用"文字识别工具"。

这项研究的独特之处在于,AI不是被动地接受人类指定的工具,而是学会了主动判断何时使用哪种工具,甚至能够在遇到全新工具时快速掌握其使用方法。这种能力的获得依靠三个核心技术创新:高质量的多轮工具交互数据生成系统、专门针对工具使用优化的强化学习算法Tool-GRPO,以及能够增强模型泛化能力的自适应学习机制。

研究团队设计了一套完整的工具箱,包含七种不同功能的视觉工具。POINT工具就像精准的定位器,能够在图像中准确找到指定物体的坐标;DRAW2DPATH工具像是路径规划师,能够在图像上绘制指定路径;ASTAR工具则像是最优路径计算器,能够找到避开障碍物的最短路径。此外还有DETECTBLACKAREA工具用于发现图像中的缺失区域,INSERTIMAGE工具用于图像拼接,OCR工具用于文字识别,以及CROP工具用于图像裁剪。

整个训练过程就像是培养一名多技能侦探的过程。首先,研究团队创建了大量高质量的案例,展示如何在不同情况下正确使用这些工具。这些案例不仅包含成功的示例,还特意加入了失败后的反思和回溯过程,教会AI在工具不起作用时如何调整策略。

在工具冷启动阶段,AI就像是跟着经验丰富的师傅学习基本技能。研究团队为每个任务设计了最优的问题解决蓝图。对于视觉空间规划任务,标准流程是先感知环境、制定计划、再验证结果;对于拼图任务,则是采用反复尝试和纠错的迭代过程;对于GUI问答任务,则是先聚焦关键区域再提取信息的策略。

更重要的是,研究团队在训练数据中故意加入了两种复杂场景。第一种是反思和回溯场景,让AI学会在遇到次优结果时主动反思和调整策略。第二种是工具失效场景,当外部工具无法提供有用结果时,AI需要回退到自身的内在能力来产生"尽力而为"的答案。

在随后的Tool-GRPO强化学习阶段,AI开始真正的实战训练。这个阶段就像是让侦探在真实案件中锻炼技能。系统会给AI分配实际任务,让它自主决定使用哪些工具、何时使用以及如何组合使用。每完成一个任务,系统会根据最终结果给予奖励,但这个奖励机制非常精巧。

奖励系统包含三个层面:格式奖励确保AI的输出结构正确,工具奖励根据工具使用的准确性给分,准确性奖励则基于最终答案的正确性。特别有意思的是,当AI答对最终问题时,不管是否使用工具都会得到满分;但如果答错了,那些使用了工具并且工具使用得当的尝试会获得部分分数,而纯粹猜测的答案则得零分。这种设计鼓励AI把工具当作不确定情况下的保险机制。

为了增强AI的泛化能力,研究团队还开发了一套独特的自适应学习策略。在训练过程中,他们会随机改变工具的名称和参数名称,比如将"计算器"随机重命名为"Func_X7a2"这样的无意义字符串。同时,工具的描述也会用不同的语言风格重新表述,但保持功能含义不变。这样做的目的是防止AI过度依赖工具名称的字面意思,而是真正理解工具的功能本质。

实验结果令人印象深刻。在视觉空间规划任务中,基础模型的准确率只有约30%,而使用AdaReasoner后准确率飙升至97%以上。更重要的是,这种改进对不同规模的模型都有效,3B和7B的模型在使用工具后都达到了接近的高性能表现,这表明工具的质量比模型本身的规模更为关键。

研究团队还发现了AI在学习过程中展现出的三种自适应行为。首先是学会采用有益工具。在路径规划任务中,AI最初很少使用ASTAR工具,但随着训练进行,它逐渐意识到这个工具的价值,使用频率稳步上升,最终稳定在每个样本使用1次以上。其次是学会摒弃无关工具。在验证任务中,ASTAR工具实际上是无用的,AI在初期会尝试使用,但很快发现没有效果后,使用频率逐渐降至接近零。最后是学会调节工具使用频率。对于持续有用的工具如POINT,AI会根据任务需求调整使用频率,在导航任务中保持高频使用,在验证任务中则适度减少。

泛化能力测试显示,即使面对全新的工具定义和从未见过的任务,AdaReasoner仍能保持良好的性能。在跨任务测试中,仅用拼图任务训练的模型能够成功迁移到视觉空间规划任务上,整体准确率从46.5%提升到75.8%。在跨工具测试中,即使将所有工具的名称和描述完全更换,模型依然能够准确理解工具功能并正确使用。

与现有方法相比,AdaReasoner在多个基准测试中都取得了显著优势。在视觉空间规划和拼图任务上,7B版本的AdaReasoner甚至超过了GPT-5这样的大型专有模型。更重要的是,AdaReasoner展现出了很强的工具使用统计特征:在拼图任务中,每个样本平均调用3.54次工具,成功率高达98.5%;在视觉搜索任务中,每个样本平均调用1.47次工具,成功率为90.04%。

这项研究的意义远超技术本身。它证明了通过有效的工具协调,较小的开源模型能够达到甚至超越大型专有模型的性能水平。这为AI民主化提供了新的可能性,让更多研究者和开发者能够构建高性能的视觉推理系统。

更深层次地看,这项工作揭示了一个重要原理:AI系统的性能瓶颈正在从模型内在能力转向工具使用效率。正如人类文明的进步很大程度上依赖于工具的发明和使用,AI系统的进步也可能越来越依赖于如何智能地利用外部工具。

当然,这项研究也面临一些局限。目前的工具集相对有限,主要集中在视觉处理领域。在更开放的任务中,如何自动发现和学习使用新工具仍然是一个挑战。此外,工具的可靠性和计算成本也是实际应用中需要考虑的因素。

展望未来,这项研究为构建更加智能和实用的AI助手指明了方向。我们可以期待看到能够根据任务需求自主选择和组合使用各种工具的AI系统,它们不仅能够处理预定义的任务,还能在遇到新问题时灵活调用适当的工具来寻找解决方案。

说到底,AdaReasoner的成功在于它不仅教会了AI如何看懂图像,更重要的是教会了AI如何像人类专家一样思考:知道在什么情况下需要什么工具,如何组合使用这些工具来解决复杂问题,以及如何在工具不可用时依靠自身能力。这种"工具化思维"的获得,可能标志着AI从单纯的模式识别向真正的智能推理迈出了关键一步。

这项研究为我们理解AI如何学习使用工具提供了宝贵的洞察,同时也为开发更加智能和实用的AI系统提供了具体的技术路径。对于那些希望深入了解技术细节的读者,可以通过论文编号arXiv:2601.18631v1查询完整的研究论文。

Q&A

Q1:AdaReasoner和普通AI模型有什么区别?

A:AdaReasoner最大的区别在于它学会了主动使用工具解决问题。普通AI模型只能依靠自身能力处理图像,而AdaReasoner像经验丰富的侦探,会根据任务需求选择合适的工具,比如用定位工具找物体位置,用路径工具规划路线,甚至能在遇到新工具时快速学会使用。

Q2:AdaReasoner在哪些任务上表现更好?

A:AdaReasoner在需要多步推理的复杂视觉任务上表现突出,特别是视觉空间规划、拼图游戏和图形用户界面问答。在这些任务中,7B版本的AdaReasoner甚至超过了GPT-5等大型模型,准确率从30%左右提升到97%以上,证明了工具使用能力比单纯的模型规模更重要。

Q3:AdaReasoner如何学会使用新工具?

A:AdaReasoner通过三阶段训练获得这种能力:首先学习高质量的工具使用示例,然后通过强化学习在实际任务中练习,最后通过自适应学习机制增强泛化能力。训练中会随机改变工具名称和描述,迫使AI理解工具的本质功能而不是依赖字面意思,从而能够快速适应新工具。

来源:https://www.163.com/dy/article/KKD5TCBM0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

webshell中上传asp文件调用服务器ActiveX控件溢出获取shell
网络安全
webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。

热心网友
04.28
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变
科技数码
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变

从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友
04.22
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍
业界动态
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍

程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G

热心网友
04.22
国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”
科技数码
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南
web3.0
2026年USDT交易软件排行榜:安全可靠的平台推荐与选择指南

本文介绍了2026年主流的USDT交易软件,重点分析了币安、欧易和火币三大平台的特点与优势。内容涵盖平台安全性、交易功能、用户体验及费用结构,旨在为不同需求的用户提供选择参考。文中强调选择平台时应综合考虑资产安全、操作便捷性和交易成本,并提醒注意风险管理与合规操作。

热心网友
05.14
2026年USDT交易软件推荐:十大安全靠谱平台深度评测
web3.0
2026年USDT交易软件推荐:十大安全靠谱平台深度评测

本文介绍了USDT交易的基本概念与主流平台选择。USDT作为稳定币,其交易主要通过加密货币交易所进行。选择平台时需综合考虑安全性、流动性、手续费和用户体验。文中列举了当前市场认可度较高的几类交易平台,并提醒用户注意资产安全与合规操作,建议根据自身需求谨慎选择。

热心网友
05.14
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平
AI
哥本哈根大学新研究探索AI推荐系统如何消除偏见实现公平

哥本哈根大学计算机科学系于2026年3月发布了一项具有里程碑意义的研究(论文编号arXiv:2603 12935v1),揭示了当前主流AI推荐系统可能潜藏的社会偏见风险。这项研究同时指出,一种高效且低成本的解决方案——提示工程,或许能成为破解这一难题的关键。 当您使用求职平台或新闻资讯应用时,背后的

热心网友
05.14
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据
AI
港科大团队创新图像修复技术:仅需千张训练图,视频生成模型效果媲美百万数据

照片模糊了、雨滴遮挡了画面、夜晚拍摄噪点过多……这些常见的图像质量问题,往往让人束手无策。传统的解决方案,就像请来一群专科医生:去模糊、去噪点、去雨滴,各有各的专长,但每个“医生”都需要海量的“临床经验”——动辄数百万张训练图片,才能达到可用的修复水平。 然而,一项由香港科技大学、哈尔滨工业大学深圳

热心网友
05.14
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南
AI
UBC与Vector研究院攻克AI资源管理难题 机器人低成本高效运行指南

这项由英属哥伦比亚大学(UBC)与Vector人工智能研究院联合主导的前沿研究,于2026年3月以预印本论文(arXiv:2603 12634v1)形式发布。研究团队创新性地提出了“预算感知价值树搜索”(Budget-Aware Value Tree Search,简称BA VT)框架,旨在攻克一个

热心网友
05.14