2月21日消息,苹果研究团队在最新发表的论文中,推出了一款专为移动端打造的轻量化AI模型Ferret-UI Lite。令人惊讶的是,这个仅有30亿参数的“小个子”,在多项性能测试中竟能与体积大它24倍的巨型模型一较高下,甚至在某些方面实现了超越。
简单来说,Ferret-UI Lite是一款专门为移动设备优化的多模态大语言模型。它属于典型的“轻量级”选手,参数规模控制在30亿,却能在手机端有限的算力下,精准理解和操作复杂的图形用户界面。

但小身材蕴藏着大能量。在多项基准测试中,Ferret-UI Lite的表现不仅追平了那些需要庞大服务器支持的巨型模型,甚至在部分任务上实现了超越,展示了极高的效率。

那么,它是如何做到的呢?关键在于一项名为“推理时裁剪”的核心技术。传统的大模型往往难以看清手机屏幕上微小的图标和文本细节,而这项技术完美解决了这一痛点。

在处理任务时,模型会先进行一次粗略的全局预测,然后智能地“裁剪”并放大屏幕上的关键区域,就像人眼凑近观察细节一样,再进行精准识别。这种策略让小模型无需处理海量图像数据,也能准确捕捉界面中的核心信息,从而更好地理解屏幕上的每一个元素。

为了在数据稀缺的情况下训练出高质量的模型,研究团队构建了一套创新的合成数据生成系统。该系统设置了“任务生成器”、“规划器”、“执行者”和“评审者”四个角色,让AI在模拟环境中不断尝试操作、犯错并自我修正。

这种机制不仅生成了海量、多样的训练样本,更重要的是让模型学会了如何应对现实操作中可能出现的各种错误与意外情况(例如点击无反应或弹出干扰窗口)。其训练效果远优于单纯依赖人工标注的“洁净”数据,让模型更加贴近真实使用场景。
测试结果显示,该模型在执行短流程、基础的UI操作任务时表现优异,但在处理复杂的多步骤长任务方面仍有提升空间。
最重要的是,Ferret-UI Lite能够完全在设备本地运行,无需将屏幕截图上传至云端服务器。这在赋予手机“自动化操作App”能力的同时,最大限度地保障了用户的隐私安全。

参考资料
