南京大学商汤科技联合发布手机AI助手开源方案引领行业革新
想象一下,将手机中那些繁琐的操作——例如打开某个应用、寻找特定设置、完成一连串步骤——全部交给一个真正理解你意图的AI来处理。这个愿景并不新鲜,但过去,真正可用的系统几乎被少数科技巨头所垄断。近期,一项由南京大学、商汤科技、南洋理工大学、上海人工智能实验室、香港大学及西安交通大学联合开展的研究,为这一领域带来了开源新风。这项名为“OpenMobile”的研究,其核心目标正是打破技术壁垒,为广大的研究者和开发者铺平道路。

这里的“Open”并非营销噱头,而是一种坚定的承诺。研究团队将训练AI手机助手所需的关键要素——数据合成方法、核心代码以及完整数据集——全部公开。要知道,在此之前,行业顶尖的AI助手(如Step-GUI、MAI-UI等)在“AndroidWorld”这一标准测试中,成功率已接近70%。这个数字背后,意味着AI需要精准“看懂”屏幕内容并“规划”每一步操作。然而,这些顶尖系统的训练数据完全处于保密状态。相比之下,依赖公开数据集训练的开源模型,成功率仅在30%左右徘徊。OpenMobile的使命,正是要填平这道巨大的性能鸿沟。
一、手机AI助手究竟在做什么
要理解OpenMobile的创新之处,首先需要明晰这类AI助手的工作原理。你可以将其想象成一位新入职的实习生:你递给他一部陌生的手机,要求“帮我在日历应用里创建一个明天上午十点的会议”。这位实习生需要看清屏幕内容(视觉感知),判断应该点击哪里(决策),并一步步执行操作。更为关键的是,如果某一步操作失误,他还需要能够意识到错误并进行纠正。
在学术领域,这类系统被称为“视觉语言模型驱动的移动端智能体”。训练它们需要海量的“剧本”——即每个任务对应的完整操作轨迹记录。只有拥有这些剧本,AI才能通过模仿学习来掌握操作技能。但核心难题在于,高质量的剧本极难获取。人工标注成本高昂且容易出错,而如果剧本中只包含“一帆风顺”的成功案例,AI在实际遇到自己犯错时就会束手无策。OpenMobile正是针对“如何自动生成高质量任务指令”和“如何收集包含纠错经验的剧本”这两大核心挑战,提出了系统性的创新解决方案。
二、给AI建一张“App功能地图”
如何自动生成大量且高质量的任务指令?OpenMobile采用了一种分阶段、结构化的全新思路。
传统方法类似于让AI在应用内随机“闲逛”,然后根据这条随机路径来编造一个任务。这就像只走过一条街道就试图编写整个城市的旅游攻略,视野非常局限。
OpenMobile的做法则截然不同。第一阶段是“绘制地图”:让AI在目标应用中进行广泛的探索,记录下所有不同的页面,并通过“感知哈希”等技术识别并过滤重复页面,最终整合成一个名为“全局环境记忆”的结构。这本质上是一张完整的App功能地图,清晰地标注了每个页面的功能以及页面之间的跳转关系。
第二阶段才是“生成任务”。对于地图上的每个目标页面,AI在生成指令时不仅能“看到”页面本身,还能获得两类关键上下文信息:一是“短期记忆”(相邻页面),二是“长期记忆”(通过语义检索找到的、功能相关但可能距离较远的其他页面描述)。
在这三层信息的共同支撑下,一个强大的视觉语言模型便能生成多样且逻辑合理的复合型任务指令,例如“在音频录制App里,将录音格式改为WAV、采样率设为48kHz、声道设为立体声,然后录制一段短音频并保存”。生成的指令还会经过严格的质量过滤和去重处理,最终形成高质量的任务指令集。
这种“先探索、后生成”的设计带来了实质性的性能提升。人工评估显示,OpenMobile生成的指令在“任务难度和复杂性”上显著优于基线方法,而“指令合理性和可执行性”并未下降。在实际模型训练中,使用同等数量的数据,OpenMobile方法让模型在AndroidWorld测试上的成功率达到了48.3%,明显高于基线方法的34.1%和45.3%。
三、教AI如何从错误中爬起来
有了任务指令,下一步是让AI执行并录制用于训练的“剧本”。这就引出了第二个核心挑战:如何收集既高质量又包含“犯错与纠错”宝贵经验的剧本。
常见的“专家蒸馏”法是让一个强大的专家模型执行任务,录制完美操作供学习者模仿。其缺点是学习者从未见过错误,一旦在实际操作中犯错便无法应对。另一种“自我进化”法是让学习者自己尝试,只保留成功的轨迹,虽然能接触到错误但进步缓慢且容易遇到瓶颈。
OpenMobile创新性地提出了一种融合两者优点的“策略切换轮转”方法。其核心在于:让学习者执行任务,同时由一个强大的视觉语言模型担任“监考老师”进行实时监控。一旦监考老师发现学习者连续点错、陷入操作循环或明显偏离任务目标,就立即让专家模型接管,执行至少三步操作将任务拉回正轨,然后再将控制权交还给学习者。监考老师还会将“偏差分析”告知专家模型,使其纠正操作更具针对性。
实验数据表明,这种“错误介入切换”策略产生的操作轨迹中,平均包含1.56个“错误与纠错”片段,远高于专家蒸馏法(0.42个)和自我进化法(0.10个)。更重要的是,用它训练出的模型,在“发现错误、分析错误、纠正错误”三个关键维度上均显著优于基础模型,其中纠正错误的能力提升了66%。
四、数据集长什么样,效果怎么样
运用上述方法,研究团队在20个主流安卓应用上生成了约2800条高质量任务指令,对应着超过34000个详细操作步骤。每条操作轨迹平均包含12.2步,每一步都附有由专家模型重新撰写的、平均129个词的“思维链推理”,以保障数据的高质量与可解释性。
使用这批数据对不同基础模型进行微调,效果立竿见影。对于未经过专门图形界面预训练的Qwen2.5-VL-7B模型,其在AndroidWorld上的成功率从25.5%大幅跃升至51.7%。对于性能更强的Qwen3-VL-8B模型,则从47.6%提升至64.7%,已非常接近Step-GUI-8B(67.7%)和MAI-UI-8B(70.7%)等顶尖闭源系统的水平。
泛化能力的测试更能说明其价值。在完全不同的测试平台AndroidLab和MobileWorld上,OpenMobile训练出的模型表现均大幅领先于其他使用开源数据的方法。特别是在考察跨应用复杂任务的MobileWorld测试中,模型成功率相对提升幅度超过50%。这表明AI获得的并非简单的“记忆答案”能力,而是真正的通用操作技能与逻辑理解能力。
研究还尝试了强化学习方法进行优化,但发现在当前动态复杂的测试环境下,其带来的提升并不稳定,未能超越标准的监督微调方法。这可能与环境多样性及强化学习框架本身的稳定性有关,成为未来值得探索的方向。
五、这是真本事还是“背了答案”
一个开源模型在特定测试集上表现出色,难免让人怀疑它是否“背了答案”或存在数据污染。研究团队对此进行了透明且深入的分析以回应质疑。
他们计算了合成训练指令与测试指令的语义相似度,发现相似度超过0.7的指令仅占3.5%,不存在大规模题目照搬的情况。更有说服力的是删除实验:删除掉10%语义最相似的训练数据后,模型成绩仅轻微下降;但当删除比例增大时,性能下滑加剧。研究者解释,这是因为删除相似指令的同时,也删除了覆盖某些核心应用功能的训练样本,影响了模型的基础能力。
这引出了OpenMobile有效的核心解释:功能覆盖率。随着合成指令数量的增加,训练数据对测试任务所需“原子功能”(基本操作)的覆盖率稳步上升。进一步分析证实,任务越复杂(所需功能组合越多),成功率越低;而训练数据覆盖的相关功能越多,成功率则越高。因此,OpenMobile的价值不在于“见过类似题目”,而在于“掌握了足够多且扎实的基础操作技能库”。
总而言之,OpenMobile的贡献是多维度的。在技术上,它提供了一套完整、可复现的高质量数据合成框架。在实验验证上,它在多个独立基准上证明了其有效性,并对数据污染风险做了罕见的透明化分析。在社区价值上,它公开了全部数据与代码,为开源社区提供了一个坚实可靠的迭代起点,推动了手机AI助手领域的公平发展。
当然,研究也坦承其当前的局限性:数据目前仅覆盖20个应用,环境多样性有待扩展;与最顶尖的73.7%成功率相比仍有差距,表明在数据质量与基础模型能力上需双管齐下持续优化;强化学习的优化路径尚未完全走通。但无论如何,让手机AI助手技术变得更开放、更透明、更可及的努力,无疑是推动整个领域实现长远与健康进步的重要基石。
Q&A
Q1:OpenMobile和其他手机AI助手相比,核心优势在哪里?
其最大的优势在于完全开源与透明——包括数据合成方法、核心训练代码以及完整数据集全部公开。此前高性能系统的训练数据均处于黑箱状态。OpenMobile使得任何研究者或开发者都能在此基础上进行复现、验证和改进。其训练出的模型在AndroidWorld测试上成功率大幅提升至64.7%,已逼近顶尖闭源系统,并在其他测试平台上展现出优秀的泛化与迁移能力。
Q2:OpenMobile的训练数据会不会是靠“背答案”得高分的?
研究团队专门对此进行了严谨验证。语义相似度分析显示,仅3.5%的训练指令与测试指令高度相似。删除实验也表明,模型性能的稳健性依赖的是对广泛基础操作技能(功能)的覆盖与掌握,而非对少数近似题目的记忆。其有效性源于构建了全面的“操作技能库”。
Q3:普通用户什么时候能用上基于OpenMobile训练的手机助手?
OpenMobile目前是一个前沿的研究框架与数据集,其训练出的模型需部署在安卓模拟器或真实设备上进行评估,并非开箱即用的消费级产品。但由于其完全开源的性质,开发者社区可以便捷地在此基础上进行后续的工程化开发、功能集成与性能优化,未来融入真实手机助手应用或操作系统中的可能性是存在的。距离普通用户直接使用,仍需一段时间的工程转化、安全测试与产品化打磨。
相关攻略
当人工智能从对话交流进化到直接操控计算机、执行命令、处理文件时,一个全新的智能时代已然开启。这类被称为“计算机使用智能体”的AI,被赋予了在数字世界中的“手脚”,能够将语言指令转化为实际行动。然而,能力越强,责任与风险也同步放大。一个核心的安全隐忧随之浮现:这些聪明的AI助手,是否会在看似合规的操作
最近,马里兰大学联合俄亥俄州立大学、Adobe研究院等多家顶尖机构在arXiv上发布了一项引人注目的研究(论文编号arXiv:2603 16777v1),为AI助手的发展指出了一个全新的方向:让它们学会“提前思考”。 想想看,当你在电脑上完成一个复杂任务,比如制作一份演示文稿时,你的大脑是如何工作的
这项由意大利特伦托大学联合贝加莫大学、法国格勒诺布尔INRIA研究院以及意大利布鲁诺·凯斯勒基金会共同完成的研究,为计算机视觉领域带来了一个全新的视角。其成果已于2025年3月19日发表在顶级期刊上,论文编号为arXiv:2603 19466v1,可供学界深入查阅。 人类在遇到信息模糊或不足的情况时
近日,微软研究院在arXiv预印本平台发布了一项突破性研究(论文编号arXiv:2603 06713v1),该研究精准切中了当前AI助手应用中的一个核心挑战:在工具数量繁多、环境复杂的场景下,参数规模较小的轻量级模型往往表现乏力,与大型模型存在显著差距。这项研究提出的ATLAS框架,为高效提升小模型
面对多任务并行、信息繁杂的工作场景,我们常常需要在不同文档、网页和应用之间频繁切换,同时还要努力记住之前的操作步骤和中间结果。当前的主流AI助手在实际应用中,也面临着类似的挑战——当对话轮次增多、需要调用的工具和处理的上下文变得复杂时,它们就像一位记忆力有限的助理,要么遗漏关键的前置信息,要么被不断
热门专题
热门推荐
华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。
内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。
神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。
华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。
FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。





