南京大学商汤科技联合发布手机AI助手开源方案引领行业革新

首页

热心网友

转载

2026-05-15

想象一下，将手机中那些繁琐的操作——例如打开某个应用、寻找特定设置、完成一连串步骤——全部交给一个真正理解你意图的AI来处理。这个愿景并不新鲜，但过去，真正可用的系统几乎被少数科技巨头所垄断。近期，一项由南京大学、商汤科技、南洋理工大学、上海人工智能实验室、香港大学及西安交通大学联合开展的研究，为这一领域带来了开源新风。这项名为“OpenMobile”的研究，其核心目标正是打破技术壁垒，为广大的研究者和开发者铺平道路。

南京大学、商汤科技等多机构联合出品：手机AI助手的

这里的“Open”并非营销噱头，而是一种坚定的承诺。研究团队将训练AI手机助手所需的关键要素——数据合成方法、核心代码以及完整数据集——全部公开。要知道，在此之前，行业顶尖的AI助手（如Step-GUI、MAI-UI等）在“AndroidWorld”这一标准测试中，成功率已接近70%。这个数字背后，意味着AI需要精准“看懂”屏幕内容并“规划”每一步操作。然而，这些顶尖系统的训练数据完全处于保密状态。相比之下，依赖公开数据集训练的开源模型，成功率仅在30%左右徘徊。OpenMobile的使命，正是要填平这道巨大的性能鸿沟。

一、手机AI助手究竟在做什么

要理解OpenMobile的创新之处，首先需要明晰这类AI助手的工作原理。你可以将其想象成一位新入职的实习生：你递给他一部陌生的手机，要求“帮我在日历应用里创建一个明天上午十点的会议”。这位实习生需要看清屏幕内容（视觉感知），判断应该点击哪里（决策），并一步步执行操作。更为关键的是，如果某一步操作失误，他还需要能够意识到错误并进行纠正。

在学术领域，这类系统被称为“视觉语言模型驱动的移动端智能体”。训练它们需要海量的“剧本”——即每个任务对应的完整操作轨迹记录。只有拥有这些剧本，AI才能通过模仿学习来掌握操作技能。但核心难题在于，高质量的剧本极难获取。人工标注成本高昂且容易出错，而如果剧本中只包含“一帆风顺”的成功案例，AI在实际遇到自己犯错时就会束手无策。OpenMobile正是针对“如何自动生成高质量任务指令”和“如何收集包含纠错经验的剧本”这两大核心挑战，提出了系统性的创新解决方案。

二、给AI建一张“App功能地图”

如何自动生成大量且高质量的任务指令？OpenMobile采用了一种分阶段、结构化的全新思路。

传统方法类似于让AI在应用内随机“闲逛”，然后根据这条随机路径来编造一个任务。这就像只走过一条街道就试图编写整个城市的旅游攻略，视野非常局限。

OpenMobile的做法则截然不同。第一阶段是“绘制地图”：让AI在目标应用中进行广泛的探索，记录下所有不同的页面，并通过“感知哈希”等技术识别并过滤重复页面，最终整合成一个名为“全局环境记忆”的结构。这本质上是一张完整的App功能地图，清晰地标注了每个页面的功能以及页面之间的跳转关系。

第二阶段才是“生成任务”。对于地图上的每个目标页面，AI在生成指令时不仅能“看到”页面本身，还能获得两类关键上下文信息：一是“短期记忆”（相邻页面），二是“长期记忆”（通过语义检索找到的、功能相关但可能距离较远的其他页面描述）。

在这三层信息的共同支撑下，一个强大的视觉语言模型便能生成多样且逻辑合理的复合型任务指令，例如“在音频录制App里，将录音格式改为WAV、采样率设为48kHz、声道设为立体声，然后录制一段短音频并保存”。生成的指令还会经过严格的质量过滤和去重处理，最终形成高质量的任务指令集。

这种“先探索、后生成”的设计带来了实质性的性能提升。人工评估显示，OpenMobile生成的指令在“任务难度和复杂性”上显著优于基线方法，而“指令合理性和可执行性”并未下降。在实际模型训练中，使用同等数量的数据，OpenMobile方法让模型在AndroidWorld测试上的成功率达到了48.3%，明显高于基线方法的34.1%和45.3%。

三、教AI如何从错误中爬起来

有了任务指令，下一步是让AI执行并录制用于训练的“剧本”。这就引出了第二个核心挑战：如何收集既高质量又包含“犯错与纠错”宝贵经验的剧本。

常见的“专家蒸馏”法是让一个强大的专家模型执行任务，录制完美操作供学习者模仿。其缺点是学习者从未见过错误，一旦在实际操作中犯错便无法应对。另一种“自我进化”法是让学习者自己尝试，只保留成功的轨迹，虽然能接触到错误但进步缓慢且容易遇到瓶颈。

OpenMobile创新性地提出了一种融合两者优点的“策略切换轮转”方法。其核心在于：让学习者执行任务，同时由一个强大的视觉语言模型担任“监考老师”进行实时监控。一旦监考老师发现学习者连续点错、陷入操作循环或明显偏离任务目标，就立即让专家模型接管，执行至少三步操作将任务拉回正轨，然后再将控制权交还给学习者。监考老师还会将“偏差分析”告知专家模型，使其纠正操作更具针对性。

实验数据表明，这种“错误介入切换”策略产生的操作轨迹中，平均包含1.56个“错误与纠错”片段，远高于专家蒸馏法（0.42个）和自我进化法（0.10个）。更重要的是，用它训练出的模型，在“发现错误、分析错误、纠正错误”三个关键维度上均显著优于基础模型，其中纠正错误的能力提升了66%。

四、数据集长什么样，效果怎么样

运用上述方法，研究团队在20个主流安卓应用上生成了约2800条高质量任务指令，对应着超过34000个详细操作步骤。每条操作轨迹平均包含12.2步，每一步都附有由专家模型重新撰写的、平均129个词的“思维链推理”，以保障数据的高质量与可解释性。

使用这批数据对不同基础模型进行微调，效果立竿见影。对于未经过专门图形界面预训练的Qwen2.5-VL-7B模型，其在AndroidWorld上的成功率从25.5%大幅跃升至51.7%。对于性能更强的Qwen3-VL-8B模型，则从47.6%提升至64.7%，已非常接近Step-GUI-8B（67.7%）和MAI-UI-8B（70.7%）等顶尖闭源系统的水平。

泛化能力的测试更能说明其价值。在完全不同的测试平台AndroidLab和MobileWorld上，OpenMobile训练出的模型表现均大幅领先于其他使用开源数据的方法。特别是在考察跨应用复杂任务的MobileWorld测试中，模型成功率相对提升幅度超过50%。这表明AI获得的并非简单的“记忆答案”能力，而是真正的通用操作技能与逻辑理解能力。

研究还尝试了强化学习方法进行优化，但发现在当前动态复杂的测试环境下，其带来的提升并不稳定，未能超越标准的监督微调方法。这可能与环境多样性及强化学习框架本身的稳定性有关，成为未来值得探索的方向。

五、这是真本事还是“背了答案”

一个开源模型在特定测试集上表现出色，难免让人怀疑它是否“背了答案”或存在数据污染。研究团队对此进行了透明且深入的分析以回应质疑。

他们计算了合成训练指令与测试指令的语义相似度，发现相似度超过0.7的指令仅占3.5%，不存在大规模题目照搬的情况。更有说服力的是删除实验：删除掉10%语义最相似的训练数据后，模型成绩仅轻微下降；但当删除比例增大时，性能下滑加剧。研究者解释，这是因为删除相似指令的同时，也删除了覆盖某些核心应用功能的训练样本，影响了模型的基础能力。

这引出了OpenMobile有效的核心解释：功能覆盖率。随着合成指令数量的增加，训练数据对测试任务所需“原子功能”（基本操作）的覆盖率稳步上升。进一步分析证实，任务越复杂（所需功能组合越多），成功率越低；而训练数据覆盖的相关功能越多，成功率则越高。因此，OpenMobile的价值不在于“见过类似题目”，而在于“掌握了足够多且扎实的基础操作技能库”。

总而言之，OpenMobile的贡献是多维度的。在技术上，它提供了一套完整、可复现的高质量数据合成框架。在实验验证上，它在多个独立基准上证明了其有效性，并对数据污染风险做了罕见的透明化分析。在社区价值上，它公开了全部数据与代码，为开源社区提供了一个坚实可靠的迭代起点，推动了手机AI助手领域的公平发展。

当然，研究也坦承其当前的局限性：数据目前仅覆盖20个应用，环境多样性有待扩展；与最顶尖的73.7%成功率相比仍有差距，表明在数据质量与基础模型能力上需双管齐下持续优化；强化学习的优化路径尚未完全走通。但无论如何，让手机AI助手技术变得更开放、更透明、更可及的努力，无疑是推动整个领域实现长远与健康进步的重要基石。

Q&A

Q1：OpenMobile和其他手机AI助手相比，核心优势在哪里？

其最大的优势在于完全开源与透明——包括数据合成方法、核心训练代码以及完整数据集全部公开。此前高性能系统的训练数据均处于黑箱状态。OpenMobile使得任何研究者或开发者都能在此基础上进行复现、验证和改进。其训练出的模型在AndroidWorld测试上成功率大幅提升至64.7%，已逼近顶尖闭源系统，并在其他测试平台上展现出优秀的泛化与迁移能力。

Q2：OpenMobile的训练数据会不会是靠“背答案”得高分的？

研究团队专门对此进行了严谨验证。语义相似度分析显示，仅3.5%的训练指令与测试指令高度相似。删除实验也表明，模型性能的稳健性依赖的是对广泛基础操作技能（功能）的覆盖与掌握，而非对少数近似题目的记忆。其有效性源于构建了全面的“操作技能库”。

Q3：普通用户什么时候能用上基于OpenMobile训练的手机助手？

OpenMobile目前是一个前沿的研究框架与数据集，其训练出的模型需部署在安卓模拟器或真实设备上进行评估，并非开箱即用的消费级产品。但由于其完全开源的性质，开发者社区可以便捷地在此基础上进行后续的工程化开发、功能集成与性能优化，未来融入真实手机助手应用或操作系统中的可能性是存在的。距离普通用户直接使用，仍需一段时间的工程转化、安全测试与产品化打磨。

来源:https://www.techwalker.com/2026/0504/3185749.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Adobe研究院推出双重核查机制确保大语言模型输出内容有据可查下一篇：加州大学圣克鲁兹分校AI桌面助手在复杂电脑任务中首次超越人类