首页 游戏 软件 资讯 排行榜 专题
首页
AI
中科院研发230M手机AI模型 小体积如何超越70亿参数大模型

中科院研发230M手机AI模型 小体积如何超越70亿参数大模型

热心网友
94
转载
2026-05-16

这项由中国科学院自动化研究所与香港科学与创新研究院联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.23941。

中科院领衔:手机上运行的AI界面操控

每天,我们打开手机、点击按钮、填写表单、滑动页面,这些看似平常的操作背后,其实藏着一个让计算机科学家头疼多年的难题:如果想让AI帮我们自动操作手机,它首先得“认识”屏幕上的每一个按钮和图标——不是靠读懂代码,而是像人类一样,通过眼睛看到界面、理解自然语言指令,然后精准地找到目标位置。这个能力,研究者称之为“GUI元素定位”,你可以把它理解为AI在手机屏幕上的“视力”和“理解力”。

问题在于,拥有这种“视力”的AI模型通常体型庞大,动辄需要数十亿个参数才能运转,就像一台专业级别的医疗扫描仪,效果虽好但体积惊人,根本塞不进你的手机。研究团队面对的核心挑战,正是如何打造一台“口袋里的医疗扫描仪”——既精准、又轻巧。他们给出的答案叫做GoClick,一个只有2.3亿个参数的小模型,却能在多个权威评测中与拥有七十亿参数的大模型一较高下,甚至在某些测试上直接超越对手。

这是怎么做到的?答案藏在两个关键决策里:选对了“身材结构”,以及在训练前认真筛选了“食谱”。

一、为什么手机上的AI“导航员”那么难造?

设想这样一个场景:一位视力障碍用户对手机说“帮我在亚马逊上搜索《孙子兵法》”。AI助手需要先理解意图,然后在屏幕上找到搜索框的具体位置,精确地“点击”它,再输入文字。这一系列动作里,最难的其实是“找到搜索框”这一步——屏幕上可能有几十个可交互的元素,搜索框可能在顶部,也可能被遮挡,而且不同的App界面设计千差万别。

人类依靠眼睛和经验可以在零点几秒内完成这个判断,但AI需要同时处理一张高分辨率的截图、理解自然语言指令,再输出精确坐标。更麻烦的是,GUI界面与日常照片差异极大:屏幕上的按钮通常非常小,可能只占整个图像面积的极小比例;同一屏幕上可能有几十个看起来相似的图标;文字密度也远高于普通照片。这些特点对AI的视觉理解能力提出了极高要求。

现有的解决方案,基本上是把大型视觉语言模型直接用于这个任务。这些模型效果不错,但参数量普遍在25亿以上,有的甚至超过180亿,部署在服务器上还好,但若要在手机本地运行则完全不现实——手机的内存和算力根本承受不住。

这个矛盾催生了GoClick这项研究。研究团队的目标很明确:打造一个能在手机上实时运行的“界面导航专家”,延迟低、精度高、体积小。

二、“瘦身”方案选错了:为什么简单缩小不管用?

直觉上,最简单的做法是把那些已经很厉害的大模型“按比例缩小”。好比把一辆豪华越野车等比例缩成玩具车,造型一样但能力也大幅缩水。研究团队确实做了这个实验:他们取来了当前流行的两款大模型——Qwen2-VL和InternVL2的小尺寸版本,用同样的训练数据对它们进行微调,期待它们在缩小后依然能胜任GUI定位任务。

结果令人失望。这两款“缩水版”大模型在GUI定位任务上的表现只能用“中规中矩”来形容,远没有达到预期。以一个关键测试集FuncPred为例,Qwen2-VL的20亿参数版本只得到了51.1分的准确率,而研究团队最终的GoClick小版本在同样测试上得到了64.4分,大版本GoClick更是达到了69.5分,全面超越了这些参数量多出数倍的对手。

原因在于,这些流行大模型在设计之初就是为了“全能”:它们要能回答问题、写文章、描述图片、做多轮对话,因此架构上选择了一种“解码器优先”的设计,本质上像是一个擅长“写作文”的大脑,需要维持大量的对话和生成能力。但GUI定位任务根本不需要这些,它只需要精准地“找到位置”并输出坐标,是一个更窄、更专的任务。把一个擅长写议论文的人,缩成一个小版本后让他当精密仪器的操作员,效果自然不尽如人意。

三、找对“身材结构”:编码器-解码器架构为何更适合小模型?

研究团队选择了一条不同的路:用一种叫做“编码器-解码器”架构的模型作为基础,具体来说是微软研究院提出的Florence-2模型。这种架构的设计逻辑,可以用一个分工明确的团队来理解——编码器负责“看图读文”,把屏幕截图和用户指令理解消化,提取出有意义的视觉和语言特征;解码器则专注于“输出坐标”,只需要把位置信息以数字形式写出来。

与那些需要维持大量文字生成能力的“解码器优先”架构相比,这种分工合作的结构把有限的参数用在了刀刃上:编码部分专心做视觉语言融合,解码部分只做一件事——精准地预测坐标,不需要对话、不需要讲故事、不需要写诗,只需要说“目标在屏幕横坐标500、纵坐标80的位置”。

学术界此前已有研究表明,在参数规模较小、任务范围相对聚焦的场景下,编码器-解码器架构通常优于解码器优先架构。GoClick的实验验证了这一结论在GUI定位任务上的适用性。面对相同的训练数据,Florence-2微调后的GoClick在几乎所有测试基准上都显著超越了参数量两倍多的Qwen2-VL和SLiME-Gemma,更大幅领先于同等参数量的InternVL-2。

在速度方面,GoClick的优势更加突出。研究团队在模拟手机设备使用条件的环境下进行了测速实验,GoClick-L的首个输出token出现时间为91.1毫秒,每个后续token的生成时间仅需8.3毫秒,而那些70亿参数的竞争对手TPOT往往高达20至30毫秒。GoClick-B版本更快,TTFT仅37.7毫秒,TPOT仅4.1毫秒,速度优势十分明显。

四、“食谱”决定水准:如何从海量数据中提炼精华?

确定了架构之后,下一个问题是:用什么数据来训练?训练AI模型就像教一个孩子,教材的质量和选择至关重要。研究团队首先大规模收集了GUI元素的“描述-位置”数据对,构建了一个总量高达1080万条样本的原始数据集。

这些数据来源非常多样:有涵盖各种网页分辨率的截图,有来自多种安卓设备模拟器的手机界面截图,有各类App操作任务的标注数据。针对每个界面元素,研究团队生成了四种不同类型的描述方式。第一种是“文本定位”——直接说出元素上显示的文字。第二种是“简短描述定位”——描述元素的外观、类别和位置。第三种是“操作意图定位”——用用户的意图来描述。第四种是“功能描述定位”——描述元素能做什么。

收集完这些原始数据后,研究团队意识到一个关键问题:数据多并不代表数据好。这就像准备一桌宴席,食材堆得再多,如果包含了过期食品和重复菜肴,最终端上桌的菜肴质量反而会下降。研究团队因此设计了一套“渐进式数据精炼”流程,分两个阶段对数据进行筛选。

第一个阶段是粗粒度筛选。研究团队发现,有两类数据对模型提升毫无帮助、甚至有害。其一是来自过时界面设计的截图——比如某个数据集包含了2011年安卓4.0时代的界面截图,与当前评测基准所使用的现代界面风格相差甚远。其二是所谓的“逆向生成任务”样本——这类样本要求模型根据元素位置反过来生成描述文字,而非根据描述找位置。实验证明这类数据不仅对定位能力没有帮助,其中的功能描述逆向生成任务甚至对模型造成了明显伤害。剔除这两类数据后,数据集从1080万条缩减到了680万条,但模型性能不降反升。

第二个阶段是细粒度调整。研究团队进一步针对六个主要数据来源,逐步降低各类任务样本的纳入比例,同时观察模型在定位评测上的表现变化。结果出现了一些出人意料的规律:来自AutoGUI、MobileViews、MultiUI和WebUI四个数据源的样本,基本上是“用得越多效果越好”;但来自AndroidControl数据源的文本定位样本,在全量纳入时反而让模型表现变差。最令人意外的是SeeClick-Web这个数据源——它提供了超过200万条简短描述定位样本,看起来是个宝库,但研究团队发现,当全量纳入时模型性能出现了“断崖式下跌”,极大可能是因为这个数据源包含过多纯文字网页,界面模式单一,全量训练后模型发生了过拟合。

经过两轮筛选,最终得到的精华核心数据集只有380万条样本——仅相当于原始数据量的35%,但训练出的模型在各项评测上的平均准确率比使用全量数据提高了整整4个百分点。

五、实战成绩:小身材,大能耐

GoClick在七个权威GUI定位评测基准上接受了全面检验,覆盖手机、网页、桌面三类界面场景,涵盖功能描述定位、简短描述定位、操作意图定位、文本定位等多种指令类型。

以其中最具挑战性的FuncPred测试为例,这个测试要求模型只根据元素的功能描述来找到目标位置,不会提示任何外观或位置信息。GoClick-L在这个测试上得到了69.5分,不仅远超同等参数量的InternVL-2和参数量两倍多的Qwen2-VL-2B,甚至超越了参数量超过自身十倍的Qwen2-VL-7B。

在更综合的ScreenSpot和ScreenSpot-v2测试上,GoClick-L分别获得78.5分和81.1分,超越了SeeClick、Ferret-UI以及4B参数的OS-ATLAS,并接近8B参数的OS-ATLAS和Aguvis。即便是只有2000万参数的GoClick-B,在VWB EG测试上也拿到了90.3分,与GoClick-L并列,在这项测试上超越了几乎所有竞争对手,包括70亿参数量级的模型。

值得一提的是,GoClick的训练数据量也远少于竞争对手:OS-ATLAS使用了1360万条数据,UGround使用了1000万条,而GoClick只用了380万条——用更少的食材做出了更好的菜,这正是数据精炼策略的价值所在。

六、装进手机与云端大脑合作:“小眼睛”如何帮助“大脑”更好地操控手机?

GoClick最令人期待的应用场景,是与大型语言模型组成“云端-设备”协作团队来完成复杂任务。研究团队设计了这样一套方案:复杂的任务规划交给运行在远程服务器上的大型专有模型,它负责“读懂”用户意图并制定操作计划;而元素定位这个高度专业化的视觉任务,则下放给安装在手机上的GoClick来完成。

这个分工逻辑清晰:大型专有模型擅长推理和规划,但定位屏幕元素并非其强项——在实验中,让GPT-4o直接输出点击坐标,准确率很低;而GoClick是一个专注于定位的专家,逻辑推理不是它的职责,但找准目标是它的拿手好戏。两者各司其职,如同侦探负责分析案情、提出方向,而现场搜证专家负责在现场精确找到关键证物。

为了验证这套方案的效果,研究团队在四个GUI操作任务基准上进行了全面测试。这些测试评估的核心指标是“步骤成功率”:AI在操作手机的每一步中,点击、输入、滑动等动作有多少比例与人类标注的正确操作完全吻合。

在Android-in-The-Wild测试上,使用GPT-4o单独既做规划又做定位时,整体步骤成功率只有27.2%;引入GoClick专门负责定位后,这个数字跃升至48.9%,点击动作的准确率更从29.9%飙升至59.7%,几乎翻了一番。对比另一种流行的方案——“标记集”提示策略,GPT-4o配合这种方法的成功率只有42.1%,仍然低于GoClick方案的48.9%。

在更难的GUIAct-Web测试上,同样是GPT-4o配合GoClick的组合,成功率从18.2%提升到50.5%,远超GPT-4o配合标记集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整体成功率达到47.2%,同样大幅优于单独使用Gemini或配合标记集的方案。

研究还发现,用“操作意图”来引导GoClick定位略微优于用“功能描述”来引导,前者在大多数测试上的得分略高。研究团队认为,这是因为功能描述是一种相对间接的描述方式,要求模型通过更多推断才能确定目标,难度更高。

七、这个研究还没解决什么?

研究团队对GoClick的局限性保持坦诚。其一,GoClick的架构优势是专门针对GUI定位任务优化的,编码器-解码器架构在这个窄任务上的优势,不一定能迁移到更复杂的任务,比如多步骤规划、思维链推理等,这些场景下大型解码器模型的优势可能会回归。

其二,数据精炼流程目前仍有一定的经验性成分,实验中调整数据比例时需要手动观察性能变化,缺乏更加系统化的理论支撑。如果用不同的随机种子来抽取数据子集,结果可能存在细微差异。研究团队也指出,未来可以借助元学习方法或博弈论中的“沙普利值”技术来更精确地量化每条样本的训练价值,但计算代价巨大。

其三,实验评测是在L20 GPU上进行的,而非在真实手机硬件上。目前还没有成熟的VLM嵌入式设备部署框架,研究团队的实测速度数据代表了模拟条件下的结果,真实手机的内存限制、能耗约束和系统级优化可能带来与测试条件不同的实际表现。

其四,GoClick的训练数据存在“时效性”问题。研究发现,使用2011年安卓4.0时代的截图数据会损害模型在现代界面上的表现,这意味着随着界面设计风格的演化,GoClick可能需要定期使用新数据重新训练,才能保持竞争力。

说到底,GoClick这项研究回答了一个看似矛盾的问题:能不能在极小的体积内,塞进足够好的“界面理解力”?答案是肯定的,但前提是既要选对架构,又要精心打磨数据。编码器-解码器的分工设计让有限的参数发挥了最大效用,而渐进式数据精炼则去除了那些表面上看起来有用、实际上是噪音的训练样本。两个思路缺一不可,缺了哪个都会让最终的模型差一大截。

这项研究对于AI助手走进日常生活有实质意义:当你的手机AI助手能够真正“看懂”屏幕、精确操作每一个按钮,而不依赖服务器的高延迟处理,很多需要实时响应的场景才真正变得可行——比如为视障用户实时导航界面,比如在地铁上低延迟地自动处理日程提醒,比如在没有良好网络的环境下仍然流畅运行的智能助手。GoClick提供的不仅是一个小模型,更是一套关于“如何在资源受限环境下做好专项AI任务”的方法论。

完整论文可通过arXiv编号2604.23941查阅。一个值得延伸思考的问题是:当AI模型同时兼顾“轻量”和“专业”时,哪些日常任务会最先受益?答案可能比你想象的更丰富。

Q&A

Q1:GoClick为什么选择编码器-解码器架构,而不是像ChatGPT那样的解码器架构?

GUI定位任务的核心是“看图找位置”,输出的只是一组坐标,并不需要生成长篇文字或进行多轮对话。编码器-解码器架构中,编码器专门负责理解图像和文字,解码器只负责输出坐标,分工明确、参数利用率高。而像ChatGPT那样的解码器架构需要维持大量文字生成能力,在参数规模缩小后,这部分能力的“成本”反而拖累了定位精度。实验证明,同等参数量下编码器-解码器架构的定位准确率显著更高。

Q2:渐进式数据精炼(PDR)为什么能用更少的数据得到更好的效果?

核心原因是“去除了有害数据”。数据量多并不代表质量高,研究发现过时界面截图和逆向描述生成类任务不仅无益,还会干扰模型学习正确的定位能力。同时,某些来源的数据过于单一重复,全量纳入会让模型“偏科”,遇到新场景就失效。筛掉这些干扰项后,模型能更专注地从高质量样本中学习,用380万条精华数据超越了使用1080万条原始数据的结果。

Q3:GoClick和Set-of-Marks(SoM)提示方法相比有什么优势?

SoM方法需要先用一个检测模型把屏幕上所有元素标注出来、打上编号,再让大型语言模型从这些候选项中选择目标,整个流程依赖大型专有模型完成最终判断。GoClick直接输出目标坐标,不需要额外的检测模型预处理,也不依赖大模型做最终决策。实验数据显示,GPT-4o配合SoM在Android-in-The-Wild上整体成功率为42.1%,而GPT-4o配合GoClick达到48.9%,差距明显,而且GoClick可以直接在手机本地运行,延迟更低。

来源:https://www.techwalker.com/2026/0506/3185860.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

中科院首创FlowPIE方法让AI自动生成科学创意突破研究瓶颈
AI
中科院首创FlowPIE方法让AI自动生成科学创意突破研究瓶颈

一项于2026年3月31日发表在arXiv预印本平台(论文编号:arXiv:2603 29557v1)的研究,为人工智能辅助科研创新带来了突破性进展。这项由中国科学院深圳先进技术研究院联合大连理工大学等机构共同完成的工作,旨在解决当前AI科研工具思维固化、创意同质化的核心难题。 目前,主流的AI科学

热心网友
05.14
中科院破解AI学习难题机器为何学不会老师技能
AI
中科院破解AI学习难题机器为何学不会老师技能

这项由中国科学院多模态人工智能系统全国重点实验室与国科大人工智能学院联合完成的研究,于2026年3月在预印本平台arXiv(编号arXiv:2603 25562v1)上发表,系统揭示并破解了AI模型训练中长期存在的一个核心难题。 设想这样一个场景:你想学习一位大厨的招牌菜,于是请大厨在你烹饪时逐步指

热心网友
05.14
中科院突破AI理解能力让机器更懂人类表达重点
AI
中科院突破AI理解能力让机器更懂人类表达重点

这项由中国科学院计算技术研究所联合加州大学默塞德分校、北京大学共同完成的研究,发表于2026年3月的arXiv预印本平台,论文编号为arXiv:2603 10705v1。 和朋友聊天时,如果想强调某个重点,我们会自然地加重语气或者用手势比划。但对于人工智能来说,如何让它准确捕捉我们想要突出的信息,一

热心网友
05.14
中科院团队解析AI遗忘难题:为何机器学习后难以忘记
AI
中科院团队解析AI遗忘难题:为何机器学习后难以忘记

这项由中央大学人工智能学院、中央大学高级影像科学多媒体与电影研究生院以及KT公司联合完成的研究,发表于2026年的AAAI人工智能顶级会议。研究团队首次系统揭示了AI模型遗忘过程中的一个核心困境:当被要求“遗忘”特定信息时,模型的行为模式远比预期复杂。这一突破性发现,对于构建既符合隐私法规又保持高性

热心网友
05.14
中科院软件所发布AI演示文稿助手智能制作工具
AI
中科院软件所发布AI演示文稿助手智能制作工具

制作一份出色的演示文稿,如同精心策划一场引人入胜的演讲——不仅需要严谨的内容结构,更需要巧妙的视觉叙事。然而,当前许多AI演示工具更像是僵化的模板填充器,虽能快速生成,却往往缺乏灵活性与创意深度。 传统AI工具普遍存在几个核心痛点。首先,它们通常受限于预设的流程和固定模板,难以根据不同行业、不同受众

热心网友
05.13

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案
AI
松应科技发布ORCA Lab 1.0 国产物理AI操作系统替代方案

英伟达Omniverse定位为物理AI操作系统。松应科技推出ORCALab1 0,旨在构建基于国产GPU的物理AI训练体系。针对机器人行业数据成本高、仿真迁移难的问题,平台提出“1:8:1黄金数据合成策略”,并通过高精度仿真提升数据可用性。平台将仿真与训练集成于个人设备,降低开发门槛,核心战略是在英伟达生态垄断下推动国产替。

热心网友
05.16
Concordium CCD币全面解析:发行机制、应用场景与投资前景
web3.0
Concordium CCD币全面解析:发行机制、应用场景与投资前景

Concordium是一个注重合规与隐私的区块链平台,其原生代币为CCD。该平台通过内置身份验证机制平衡隐私与监管要求,旨在服务企业级应用。CCD用于支付交易手续费、网络治理及生态内服务结算。其经济模型包含释放与销毁机制,以维持代币价值稳定。项目在合规金融、供应链、数字身份等领域有应用潜力。

热心网友
05.16
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区
AI
上海人工智能实验室联合商汤共建AI全链路验证平台与生态社区

上海人工智能实验室联合多家机构发起国产软硬件适配验证计划,致力于打造覆盖AI全流程的验证平台与自主生态社区。该平台旨在解决国产算力与应用协同难题,构建从芯片到应用的全链路验证体系,支持多种软硬件适配,推动国产AI技术向“好用、易用”发展。商汤科技依托AI大装置深度参与,已。

热心网友
05.16
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录
AI
达闼科技陨落一周年回顾具身智能独角兽兴衰启示录

具身智能行业资本火热,但曾估值超200亿元的达闼科技迅速崩塌。其失败主因在于创始人黄晓庆以通信行业思维经营机器人业务,过度依赖政商关系与资本运作,技术产品突破有限;同时股权结构复杂分散,倚重政府基金,最终因融资断档与商业化不足导致团队离散。这折射出第一代创业者跨。

热心网友
05.16
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局
AI
大厂学术霸权引争议 TurboQuant事件暴露学界困境如何破局

TurboQuant论文被质疑弱化与RaBitQ的关联,并存在理论比较与实验公平性问题。谷歌借助平台影响力将其定义为突破性成果,凸显了大厂在学术生态中的结构性优势。类似争议在伦理AI、芯片等领域亦有体现,反映了产业界将利益嵌入研究流程的机制。当前AI研究日益由大厂主导,其通过资本、渠道与话语权塑造。

热心网友
05.16