6月10日,手机智能体领域迎来了一场真正的“硬核大考”——AgentCLUE-Mobile手机GUI Agent基准测评成绩正式揭晓。结果一出,中兴通讯旗下的GUI手机智能体便成为全场焦点,以绝对优势拿下断层第一,领先幅度相当惊人,将第二名远远甩在身后。
本次测评的核心目标非常明确:考察这些智能体能否在实际手机APP中帮助用户自动完成操作——比如点外卖、订车票、查信息等日常高频任务。简单来说,就是检验AI在真实手机环境中的“动手能力”和实用价值。

具体成绩方面,中兴的产品以91.29分高居榜首,而排名第二的智谱AI旗下Open-AutoGLM仅获得73.11分——差距超过18分。在同类技术评测中,这样的领先幅度堪称断崖式优势,充分展现了中兴在手机智能体领域的深厚实力。
支撑中兴取得这一突破的,是其自主研发的Nebula-Pilot V1.0 27B模型,并且采用了API调用的运行方式。值得注意的是,本次测评中,前几名清一色都是API调用方案,整体得分明显高于本地部署的模型。从数据来看,本地部署方案中得分最高的是阿里的MAI-UI,仅拿到65.91分;字节跳动的UI-TARS成绩更不理想,只有30.19分。这一细节耐人寻味——API调用在灵活性和资源利用效率上,显然在手机场景下占据了明显优势。
从机构排名来看,中兴通讯稳居榜首,智谱AI与阿里巴巴紧随其后,分别位列二、三名。阶跃星辰和字节跳动的产品则排在更靠后的位置。不同方案之间的差距,归根结底源于模型能力与调用方式的差异。中兴的大模型在界面理解、控件识别、连续操作等关键环节上表现得更加稳定扎实,为智能体的高效运行奠定了坚实基础。
如今,用户对手机智能体的期待越来越高——谁都希望它能自动“跑腿”,帮忙处理重复性的操作,让自己省时省力。此次测评结果有力证明,中兴在手机端智能交互的技术储备非常扎实,无论是模型能力还是整体方案,都已相当成熟,具备很强的实用性和竞争力。
从不同调用方案的对比来看
API调用方案的整体表现明显优于本地部署的模型。中兴采用的API方案在稳定性和灵活性方面更具优势,这也是其取得高分的关键原因之一。




可以预见的是,接下来这类手机智能体产品将越来越多,大家手中的手机使用体验也将变得更加省心、更加智能。
