AAAI 2026 Oral:InfiGUI-G1模型刷新GUI Grounding SOTA
随着多模态大语言模型(MLLM)的飞速发展,能像人类一样通过视觉操作图形用户界面(GUI)的智能体正逐步走入现实。然而,在迈向通用计算机控制这一目标的道路上,如何让模型精准地将自然语言指令与屏幕上的具体元素对应起来——也就是GUI Grounding任务——依然是一大核心挑战。
现有的解决方法,特别是基于验证奖励的强化学习(RLVR),虽然在提升“指得准”(空间对齐)方面表现出色,却常常在“指得对”(语义对齐)上遇到瓶颈。模型往往会陷入“自信陷阱”,在复杂的语义场景下难以通过有效探索找到正确的功能图标。
针对这一难题,来自浙江大学、香港理工大学及InfiX.ai的研究团队提出了一种全新的自适应探索策略优化框架(AEPO),并推出了InfiGUI-G1系列模型。该模型通过多答案生成与自适应奖励机制,有效打破了传统RLVR方法的探索局限。仅凭3B和7B的参数量,InfiGUI-G1就在多个高难度GUI基准测试中刷新了SOTA纪录,部分指标甚至大幅超越了闭源模型。
相关攻略
澎湃新闻获悉,4月1日,远景发布全球首款12 5MWh AI储能系统,搭载的全球最大方壳卷绕储能电芯790Ah已投产,配合全新一代PCS和AI温控技术,系统能效超92%,并网效率提升60%。依托自研
IT之家 4 月 1 日消息,科技媒体 9to5Mac 昨日(3 月 31 日)发布博文,报道称部分 iPhone 用户反馈升级 iOS 26 4 后,Apple Music 自适应界面在深色场景下
快科技3月25日消息,苹果在3月16日突然发布了AirPods Max 2头戴耳机,售价3999元,今晚已经正式开始接受订购,将于4月1日发货。AirPods Max 2整体外观设计没有任何改动,提
国家知识产权局信息显示,佛山创视嘉科技有限公司申请一项名为“一种基于自适应节奏检测与动态匹配的虚拟现实音乐交互方法及系统”的专利,公开号CN121579119A,申请日期为2025年11月。专利摘要
IT之家 2 月 28 日消息,MIT News 于 2 月 26 日发布博文,报道称麻省理工学院(MIT)联合英伟达等机构,发布“驯服长尾”(TLT)技术,可以大幅提升推理大语言模型(LLM)的训
热门专题
热门推荐
《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又
目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值
AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op
彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的
GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi





