AAAI 2026 Oral:InfiGUI-G1模型刷新GUI Grounding SOTA
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
随着多模态大语言模型(MLLM)的飞速发展,能像人类一样通过视觉操作图形用户界面(GUI)的智能体正逐步走入现实。然而,在迈向通用计算机控制这一目标的道路上,如何让模型精准地将自然语言指令与屏幕上的具体元素对应起来——也就是GUI Grounding任务——依然是一大核心挑战。
现有的解决方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升“指得准”(空间对齐)方面表现出色,却常常在“指得对”(语义对齐)上遇到瓶颈。模型往往会陷入“自信陷阱”,在复杂的语义场景下难以通过有效探索找到正确的功能图标。
针对这一难题,来自浙江大学、香港理工大学及InfiX.ai的研究团队提出了一种全新的自适应探索策略优化框架(AEPO),并推出了InfiGUI-G1系列模型。该模型通过多答案生成与自适应奖励机制,有效打破了传统RLVR方法的探索局限。仅凭3B和7B的参数量,InfiGUI-G1就在多个高难度GUI基准测试中刷新了SOTA纪录,部分指标甚至大幅超越了闭源模型。
相关攻略
澎湃新闻获悉,4月1日,远景发布全球首款12 5MWh AI储能系统,搭载的全球最大方壳卷绕储能电芯790Ah已投产,配合全新一代PCS和AI温控技术,系统能效超92%,并网效率提升60%。依托自研
IT之家 4 月 1 日消息,科技媒体 9to5Mac 昨日(3 月 31 日)发布博文,报道称部分 iPhone 用户反馈升级 iOS 26 4 后,Apple Music 自适应界面在深色场景下
快科技3月25日消息,苹果在3月16日突然发布了AirPods Max 2头戴耳机,售价3999元,今晚已经正式开始接受订购,将于4月1日发货。AirPods Max 2整体外观设计没有任何改动,提
国家知识产权局信息显示,佛山创视嘉科技有限公司申请一项名为“一种基于自适应节奏检测与动态匹配的虚拟现实音乐交互方法及系统”的专利,公开号CN121579119A,申请日期为2025年11月。专利摘要
IT之家 2 月 28 日消息,MIT News 于 2 月 26 日发布博文,报道称麻省理工学院(MIT)联合英伟达等机构,发布“驯服长尾”(TLT)技术,可以大幅提升推理大语言模型(LLM)的训
热门专题
热门推荐
百度网盘个人版如何转企业版?完整切换步骤详细指南 当个人网盘难以满足团队文件共享与协作需求时,百度网盘提供的企业版无疑是高效解决方案。本文将为你详细解析如何直接在百度网盘App内,将个人账户一键切换至功能更强大的企业版,快速开启团队文件管理新模式。 第一步:进入个人中心页面 首先,请确保已安装并打开
“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威
洛克王国世界水泡壳技能搭配完全指南:打造攻防一体的战术核心 世界水泡壳的技能池设计充满了战术深度,完美诠释了攻防一体的战斗哲学。无论是纯粹依靠威力压制对手的技能,还是具备控制、辅助等战略功能的技能,都能在其技能库中找到。掌握其技能搭配的核心思路,是让世界水泡壳在对战中发挥出全部潜力的关键,能够轻松取
现货比特币ETF单周吸金14 2亿美元,强势回归背后的市场信号 加密货币市场正迎来关键转折点。近期数据显示,现货比特币ETF资金流入呈现爆发式增长,成为近期最受关注的市场风向标。这不仅反映了机构资金的重新布局,更可能预示着市场供需结构的深层变化。 数据解读:创纪录的资金流入意味着什么? 根据专业追踪
河西竹篮打水奇遇触发地点指南 想要成功触发《燕云十六声》中颇具趣味的“竹篮打水”奇遇,玩家需要首先前往河西地图的特定区域进行探索。该触发点位置较为隐蔽,建议在河西沿岸的村落与水边场景多番巡视。当你接近正确位置时,可以留意游戏内的环境暗示,例如独特的视觉标识、背景音效的变化或氛围的微妙转变,这些都是系





