首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
新研究促大模型主动追问,人机协作效率提升85%

新研究促大模型主动追问,人机协作效率提升85%

热心网友
65
转载
2026-01-11

在写作等开放性任务中,AI 能跳出现有信息框架,提出类似人类的、甚至人类没有想到的建议吗?

在以往的研究中,AI 聊天机器人与用户的对话一般是被动的事实性问答,即对已有信息进行相关澄清和梳理。尽管可直接通过指令让 AI 提出解决方案,但其并不承担创造性任务。

在近期的一项研究中,研究人员为 AI 输出创造性内容提供了一种可能的方案。美国南加州大学与微软公司、加州大学戴维斯分校团队合作,引入了一种主动信息收集的任务范式,通过强化学习训练大语言模型,即便面对不完整或模糊的提示,大语言模型也可以主动识别信息缺口。

并且,基于特定问题主动挖掘用户隐含的信息或知识,通过提升模型在复杂、开放性任务中的协作能力,来更好地完成任务,特别是在社会科学、商业等深层次的上下文推理任务中具有优势。

可以这样来理解:面试者需要通过面试官提出有启发性的问题以及互动,才能更好地展示自身价值,让 AI 解读相对复杂文档的原理亦是如此。


图丨左至右依次是杨珑颀、黄腾昊、周沛和陈斯昊(来源:该团队)

相关论文以《教会语言模型主动收集信息》(Teaching Language Models To Gather Information Proactively)为题,已经被 EMNLP-Findings 2025 接收 [1]。南加州大学博士生黄腾昊(目前在微软实习)是第一作者,微软公司资深研究科学家周沛和陈斯昊担任共同通讯作者。


图丨相关论文(来源:EMNLP)

为确保模拟的模糊性既真实又可学习,研究团队基于涵盖 25 个专业领域、1,000 多条数据的 DOLOMITES 数据集进行测试,并设计了掩盖关键信息并模拟真实的模糊性的机制。

据介绍,在强化学习的奖励设计中,研究人员希望奖励机制更专注于“提出创造性问题”这一行为本身,而非具体问题的内容。重点在于鼓励模型提出在已有数据中不存在的新问题,并以此作为强化奖励的依据。


图丨主动澄清有助于实现最佳的大模型响应(来源:EMNLP)

陈斯昊指出,如果针对其中一个答案去做特定训练,并不会得到很好的泛化性。“我们的做法是将最终输出的评估作为奖励信号,相当于在机器学习时专门去学习怎样生成和人类标注出来的答案一样。最后,生成符合奖励模式的答案。”

研究人员将已有的数据转化成奖励信号,通过设计对话模拟引擎,把用来做监督学习的任务转变成对话形式。相当于两个 AI 之间通过互动的方式,一个 AI 提出澄清问题,另一个 AI 基于问题质量/回答有效性打分,进而获得奖励信号。


图丨评估框架下的实验结果(来源:EMNLP)

研究结果显示,经过该方法微调的 Qwen-2.5-7B 模型,在自动评估指标上比基线模型 o3-mini 提高了 18%;而在人类评估中,基于该方法生成的澄清问题以及最终大纲分别获得 42% 和 28% 的偏好率。


(来源:EMNLP)

该研究并不是简单地训练模型完成任务,而是通过奖励机制,让模型微调后提出建设性、启发性观点或前瞻性建议,进而展现出类人的系统性思考方式。

周沛对 DeepTech 解释道:“它具有很好的泛化性,相当于‘授人以鱼不如授人以渔’,即不是直接教 AI 该提什么问题、该给什么答案,而是教它主动发现信息缺口、提出创造性澄清问题的思考方式,从而靠自身的互动能力获得最优解。”

此外,基于该方法微调的模型不只是给出一个答案,它可能需要提出需要澄清问题,也有可能需要多核协作,甚至还可能需要质疑之前提出的假设是否有问题。

研究团队认为,这项研究本质上是在进行用户与 AI 之间的深度研究,通过对话同步上下文、缩小信息差。因为当 AI 和用户都更清楚最终输出的目标时,有利于后续的人机协作,从而创造性地完成更深度的任务。

这种主动信息收集的方法适用于开放性任务,例如包括文献综述和报告的写作任务,或布置画廊展览在内的场景。黄腾昊解释说道:“AI 本身可能在这些方面没有太多知识,需要和用户进行多轮对话和互动来获取新知识,再用这些新知识来解决新任务。”

此外,该方法还有可能推动人类和智能体互动的形式。例如,在 AI+教育场景应用中发挥作用,让 AI 在用户没有表达信息的情况下,主动引导学生向某个方向学习。

在人与 AI 互动中,补充信息差的方式有多种:一是让 AI 通过提出好问题来主动获取缺失信息;另一种是,在同步或非同步的场景下,模型可以通过给出提示协助获取其他信息。这也是研究团队未来将继续探索的方向之一。

参考资料:

1.https://arxiv.org/abs/2507.21389v1

运营/排版:何晨龙

来源:https://www.163.com/dy/article/KJ0U1VE005119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

ICML 2026论文解读:TGO标量反馈对齐视觉生成模型
AI
ICML 2026论文解读:TGO标量反馈对齐视觉生成模型

生成模型的偏好对齐,可能正在进入一个新的阶段。 过去几年,大模型在训练后优化(post-training)最主流的方法,是让模型从“成对偏好”中学习。无论是经典的RLHF,还是后来更简洁的DPO,都绕不开同一个前提:反馈必须成对出现。 但在真实世界里,反馈往往不是这样。用户给一个结果打分、系统记录一

热心网友
05.18
惠山隧道启用智能信号系统实现分车道精准管控
业界动态
惠山隧道启用智能信号系统实现分车道精准管控

驾车经过惠山隧道入口时,许多驾驶员都曾对那组特殊的信号灯感到困惑。请务必注意——这并非传统的红绿灯,而是一套基于数字分车道的智能交通协调系统。 此处是惠钱路匝道与古华山匝道的交汇节点,以往两股车流同时汇入隧道时,极易因抢道引发交织冲突与安全隐患。为彻底解决这一交通瓶颈,交管部门在此创新部署了这套带有

热心网友
05.15
博尔扎诺大学研究:用少量参数优化篮球姿势评估模型
科技数码
博尔扎诺大学研究:用少量参数优化篮球姿势评估模型

想象一下,你正在学习投篮。一位经验丰富的教练站在场边,他关注的远不止“球进没进”,而是你手腕的角度、起跳的时机、身体重心的控制。这种对“动作完成质量”的直觉判断,是人类教练数十年经验的结晶,但对计算机而言,却曾是一个近乎无解的难题。 长期以来,计算机视觉的研究重心在于让机器识别“人在做什么”,例如区

热心网友
05.14
JIT编译器如何利用硬件信号优化隐式空值检查减少分支
编程语言
JIT编译器如何利用硬件信号优化隐式空值检查减少分支

隐式Null检查优化是JIT编译器提升性能的一种技巧,它通过CPU内存保护异常替代显式判空指令,减少分支开销。该优化需满足对象稳定、偏移固定等条件,依赖操作系统快速异常处理。虽能提升性能,但可能增加调试难度,并在某些安全环境中失效。

热心网友
05.10
医学博士跨界研发导电心肌补片免缝合重连心电信号
科技数码
医学博士跨界研发导电心肌补片免缝合重连心电信号

毛吉富团队研发出免缝合三维导电心肌补片,表面微米级导电“倒刺”可快速锚定心脏并重建电信号通路,动物实验中三天内改善心功能。团队还开发无线供电智能敷料等医用纺织材料,通过纤维材料创新解决心梗、慢性伤口等临床难题。

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

生数科技Motubrain动作模型发布引领机器人智能新纪元
AI
生数科技Motubrain动作模型发布引领机器人智能新纪元

机器人行业迎来里程碑式突破。以视频生成模型Vidu著称的生数科技,正式发布了名为Motubrain的“世界动作模型”。这并非一次普通迭代,而是被定位为机器人的“物理大脑”,其核心目标在于:用一个统一的通用模型,彻底取代以往依赖多个专用系统拼凑而成的复杂架构。 正如其“一个大脑,无限可能”的口号所揭示

热心网友
05.18
xAI发布编程助手Grok Build 进军AI编程工具市场
AI
xAI发布编程助手Grok Build 进军AI编程工具市场

xAI正式进军AI编程智能体领域,于近日发布了专为软件工程与复杂编程任务设计的Grok Build。 简单来说,Grok Build是一款能在终端里直接跑起来的AI编程助手。它被定位为一个具备智能体能力的命令行工具,开发者用自然语言告诉它要做什么,它就能生成代码,甚至帮你搞定一系列编程和自动化任务。

热心网友
05.18
谷歌更新垃圾内容规则 AI操纵行为将被处罚
AI
谷歌更新垃圾内容规则 AI操纵行为将被处罚

近日,谷歌对其搜索引擎的核心规则进行了重要更新,此次调整直指当前备受关注的AI搜索领域。具体而言,谷歌在其垃圾内容政策中新增了明确条款,正式将“操纵AI搜索结果”的行为列为违规操作,划定了新的质量红线。 根据权威行业媒体Search Engine Land的报道,本次谷歌算法更新的核心在于,将任何企

热心网友
05.18
太浩湖能源危机:AI产业推高电价冲击硅谷后花园
AI
太浩湖能源危机:AI产业推高电价冲击硅谷后花园

硅谷的科技巨头们或许曾以为,自己已经远离了AI数据中心带来的电力压力——毕竟,高昂的地价和电费早就把大型数据中心项目“赶”到了别处。但现实总是出人意料,这场能源危机的涟漪,正悄然涌向他们心爱的度假后院。 没错,说的就是太浩湖。这个湾区精英们钟爱的避世天堂,如今正站在一场电力风暴的边缘。距离它必须找到

热心网友
05.18
高通新架构实现AI深度思考:推理更智能且大幅节省内存资源
AI
高通新架构实现AI深度思考:推理更智能且大幅节省内存资源

这项由高通AI研究院(Qualcomm AI Research)主导的创新研究于2026年5月正式发布,论文预印本编号为arXiv:2605 07721。 研究背景:当AI越想越费内存,我们该怎么办 设想一下,手机导航应用会在出发前规划好整条路线,而一位真正智慧的向导则会边走边思考,遇到路障时灵活应

热心网友
05.18