首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI手机未来走向:模型、系统与生态的角逐

AI手机未来走向:模型、系统与生态的角逐

热心网友
68
转载
2026-01-13

手机可能是首个真正被 AI 接管的终端。全球有数十亿智能手机用户,每天生产着海量的数据。这些数据成为 AI 的燃料,反过来,AI 让手机更加智能。

当苹果还在持续评估 Siri 的底层供应商之时,安卓手机厂商已经摩拳擦掌,在能部署 AI 功能的地方都塞上了 AI。无论是字节跳动与手机厂商中兴在操作系统层面合作推出的豆包 AI 手机工程样机,还是智谱开源能够自动化操作手机界面的 AI Agent 模型 AutoGLM,都引起了市场对 AI 手机或手机 Agent 的高度关注。

按照业界的预期,Agent 将非常深刻地改变在智能终端上的人机交互逻辑。从主动式的 AI 响应对话,到“次抛型”的 APP,千人千面的终端服务将成为可能。

无论是 AI 手机还是在手机中开源 Agent 模型,对于 Agent 应用与终端的普及、提高行业智能体体验的底线都有正向的影响。开源模型也在一定程度上缓解了终端厂商的数据安全焦虑,并能够更好地融合进厂商原有的 Agent 助手系统,而非必须“另起炉灶”。与此同时,互联网应用也获得了一个强大的基础,用于开发应用内的自主操控智能体应用。

在当下的实践中,手机应用主要分为娱乐、查询和工作三类。相比点外卖、买咖啡这些日常小事,AI 手机里的 Agent 更大的价值可能在于提升工作效率——帮用户快速搞定那些原本复杂耗时的任务,比如深度信息搜索、全网比价购物、个人数据查询管理等。这些事情以前可能要折腾半天,现在 Agent 能帮你几分钟就解决。

例如,Agent 可以通过整理手机中的聊天记录、照片视频、购物历史等数据,帮你回忆某段时间的生活轨迹或重要事件。

然而,现在移动终端面临的核心问题是:缺乏统一的 Agent 生态系统,无法有效打通不同应用之间的功能调用。加上行业内尚未就 Agent 生态标准形成统一共识,这些因素共同导致 AI 手机很难通过应用工具调用的方式实现真正的智能操作。

因此,为了让手机 Agent 能够通用地使用不同应用,目前只能“曲线救国”——通过图形用户界面(GUI,Graphical User Interface)的方式,模拟人手操作来控制手机。操作逻辑其实就是多模态理解:先看懂手机当前的屏幕截图,然后像人一样去点击相应的 APP 和按钮,最后完成具体任务。

这种方式适用性很强,理论上能操作各种 APP。但问题是移动设备的算力和存储有限,面临两难选择:7B 以下的小模型处理复杂 GUI 任务力不从心;而 7B 以上的大模型虽然功能强大,但体积太大、成本太高,在手机上跑起来很困难。

AI 手机的路线之争:云端还是端侧?

目前,AI 手机(包括手机 Agent)主要分为三条技术路线:纯云端模型、纯端侧模型和端云协同模型。

纯云端模型多用于移动端(例如 AI 手机等)需要多个步骤和任务部署的复杂任务。另外,在多 APP 操作的场景下,由于任务相对较难,需要较强的推理能力和多模态理解,也会更多地使用云端模型。

尽管云端模型整体性能效果比端侧模型强,但问题在于数据存放在云端,面临包括照片、视频、聊天信息、邮件等在内的数据隐私问题。此外,高成本和带宽也是不容忽视的关键问题。因此,在一些涉及个人数据、隐私性较强的场景则需要纯端侧模型。对于端云协同框架,则适用于云端和端侧能力差别不显著的场景。

一个关键的问题付出水面:在手机这样算力、能耗和隐私都极度受限的终端上,是否真的存在一种现实解法——既不过度依赖云端,又能跑得动 GUI Agent?

近期,香港大学黄超教授团队给出了一个平衡成本和性能的新方案,我们从这个案例中或许可以看到一些启发。研究团队开源了一个叫 OpenPhone 的项目(Mobile Agentic Foundation Models)[1]。在该项目中,不仅开源了一个纯端侧 3B 尺寸的小模型,还提供了一套端云协同的方案,这样既能在隐私敏感的场景下用本地模型处理,又能在隐私不敏感的复杂任务上调用云端大模型来保证完成质量。

考虑手机的能耗限制和实际部署的可能性,研究人员基于开源的 Qwen2.5-VL-3B 模型和自动化生成的 GUI 数据,通过监督微调和强化学习策略实现了与通用的 7B 模型相当的性能。


(来源:arXiv)

OpenPhone 还引入了一种类似于思维链(CoT,Chain of Thought)的长推理机制。该机制的“巧妙之处”在于,将包括屏幕状态、任务进度和推理过程等在内的每一步信息,从存储原始高分辨率截图压缩成精简的文本描述,有效地降低了历史上下文的存储负担,从而实现了 Agent 的长期反思以及决策能力。

在 138 项手机任务的测试中,OpenPhone 在性能接近 9B 模型的情况下,速度提升了 4 倍。“从端侧测试结果来看,训练数据对于 GUI Agent 的表现至关重要,OpenPhone 提供了一套可以最大化人工标记数据价值的数据生成管道,利用有限的数据来尽可能增强 GUI Agent 的能力。”黄超告诉 DeepTech。

该研究证明,尽管小模型在泛化能力上不如大模型,但其在手机 Agent 场景中,可通过长推理等方式激发小模型的执行任务能力,其在移动端的潜力同样不容忽视。


图丨 OpenPhone 的总体框架(来源:arXiv)

黄超解释道:“在 OpenPhone 项目中,端云协同框架不仅可节约模型本身的 token 开销,还能降低成本。但是,如果模型云端效果显著好于端侧,则依然会采用云端模型来进行操作。”

研究团队坦言,该框架在实际部署过程中,可能会面临大量工程性的优化问题。近期,他们也在和企业界沟通探讨未来合作的方式。“尽管目前 AI 手机的大部分解决方案依赖于云端,但业界对端侧突破仍寄予厚望。从我们与企业的交流来看,他们更倾向于在端侧解决,云端可能只是当前的权宜之计。”黄超表示。

可以看到,端云协同是在当下平衡隐私和效果(成功率)的一个比较可行的方案。如果不考虑能耗和终端部署情况,端侧处理最为理想,并能帮设备厂商节约云端算力。未来,端云协同仍会是一个比较理想的范式。

业内人士告诉 DeepTech,端云协同长期来看是最佳选择,不过短期内受制于端侧芯片算力和内存限制,端上不太可能完整运行所有 AI 手机需要的模型功能,仍需要较长的时间和行业内的软硬协同发展。

因此,比较理想的状态自然是简单任务能路由到端侧直接运行,复杂任务路由到云端执行,但是实现这样的目标需要先跑通 AI 手机生态实现意图理解的数据飞轮,模型才可能将来做到这一目标。

AI 手机真正的难题:谁来开放操作系统的权限?

回到一个 AI 手机绕不过的问题:包括社交软件、操作软件或信息查询软件在内的主流 APP,会禁止手机 Agent 的访问权限。

从智能手机的角度来看,如果用户通过手机 Agent 来操作所有 APP,即通过 GUI 方式进行访问,那么 APP 有可能丧失流量入口,直接导致 APP 赖以为生的广告价值归零。

有专家指出,现在的问题在于,整个移动端的 AI 手机整体生态会往哪里走,可能取决于手机厂商的战略制定。总体来看,解决这个问题有两种方案:一是 AI 手机厂商有一套自己的生态,二是未来可能也会涉及到流量入口的合作。

在 DeepTech 与几位业内人士的交流中,普遍认为 AI 手机的生态并非仅依赖某几家企业或技术进步的问题,而是整个行业共同面临的生态问题,包括技术提供方(例如 AI 助手能力提供方、操作系统厂商、硬件供应链模型企业)、应用与服务方(例如端硬件、互联网应用)、用户、开发者和监管机构等。

对于手机操作系统本身的权限开放,业内人士指出,需要谨慎但坚定的推动,不宜操之过急但也万不可故步自封。其类似自动驾驶上路的发展,可以考虑在满足审计安全要求下,通过试点硬件产品和应用场景开放合作,逐步推动相关场景落地和教育,并且同步建设起更完整的生态机制。

谈及在操作系统层面兼顾支持高效模型调度、有效管理本地安全权限以及保障用户隐私策略的策略,一位业内人士告诉 DeepTech,这是一个较复杂的问题,短期来看需要先建立 Agent 与用户、系统和应用之间的互信授权机制,同时建立起关于 Agent 的审计与安全栅栏,明确智能体“上路”的水平要求和安全底线。长期来看,该方向的发展极大程度取决于 AI 和大模型本身的发展进度,需要审时度势地考虑实际发展情况进行决策。

此外还需要看到的是,无论是云端还是端侧模型,AI 手机任务的成功率目前尚不及人类水平,未来还需要在准确率和可靠性方面同步提升。并且,纯 GUI Agent 整体响应速度还有很大的提升空间。

黄超认为,未来模型上下文协议(MCP,Model Context Protocol)生态辅助 GUI 作为解决方案,有望提升手机 Agent 的整体响应速度和准确率。“就像智能手机需要 APP Store,AI 手机也需要类似的平台,让整个社区都活跃起来贡献高质量的 MCP,再去调用它们。从生态角度来看,APP 只有保持开放状态并放出自己的 MCP,构建一套更加完善高效的合作模式,才能守住自己的流量,否则流量也有可能会被其他类似 APP 抢走。未来应用可能会呈现出两种交互模式:一种是面向智能体的交互,另一种是面向人类的交互。”

可见,AI 手机真正广泛应用的标志,不在于模型多强,而是不同 APP 应用厂商如何共建手机智能体的环境。当然,这同样需要整个生态系统共同推动技术的发展和落地。

参考资料:

1.https://arxiv.org/abs/2510.22009v1

排版:刘雅坤

来源:https://www.163.com/dy/article/KJ5R7PNU05119734.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

黑客谈MS07-029域名DNS漏洞利用入侵过程
网络安全
黑客谈MS07-029域名DNS漏洞利用入侵过程

MS07-029 DNS服务器漏洞:利用原理与攻防实战深度解析 在网络安全攻防史上,MS07-029是一个具有里程碑意义的Windows DNS服务器高危漏洞。该漏洞的官方定义为Windows域名系统(DNS)服务的RPC(远程过程调用)管理接口堆栈缓冲区溢出漏洞。成功利用此漏洞需要两个基本前提:一

热心网友
04.28
对Linux服务器四种级别入侵讲解
网络安全
对Linux服务器四种级别入侵讲解

随着Linux企业应用的扩展,有大量的网络服务器使用Linux操作系统。Linux服务器的安全性能受到越来越多的关注,这里根据Linux服务器受到攻击的深度以级别形式列出,并提出不同的解决方案。 简单来说,对Linux服务器的攻击,就是一种未经授权、旨在妨碍、损害甚至完全破坏其安全的行为。攻击的后果

热心网友
04.28
利用windows脚本入侵WINDOWS服务器
网络安全
利用windows脚本入侵WINDOWS服务器

当Windows服务器遇见“隐形钥匙”:rcmd VBS的另类控制力 在当前的网络环境中,Windows架构的服务器凭借其易于上手的特点,依然占据着相当大的市场份额。但众所周知,易用性与安全性常常难以兼得,Windows系统丰富的功能背后,也伴随着相对较多的漏洞,这使得它成为许多安全研究的焦点。今天

热心网友
04.28
从UNIX系统获取密码档(三)
网络安全
从UNIX系统获取密码档(三)

Root与Demon工具包及特洛伊木马持久化技术详解 -------------------------------------------------------------------------------- 在渗透测试与网络安全攻防演练中,维持持久访问权限是核心挑战之一。方法众多,但能否长期

热心网友
04.28
攻破Windows加密保护之EFS解密
网络安全
攻破Windows加密保护之EFS解密

EFS加密技术:原理、探索与一点实用思考 说到Windows系统的文件加密,EFS(Encrypting File System,加密文件系统)是个绕不开的话题。它内置于系统中,操作看似简单,但其背后的机制却相当精妙。今天,我们就来深入聊聊这项技术,并探讨一个在特定边界下的访问情景。 EFS的工作原

热心网友
04.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

燕云十六声天工地窟身如飞燕宝箱获取全攻略
游戏资讯
燕云十六声天工地窟身如飞燕宝箱获取全攻略

在《燕云十六声》的天工地窟中,“身如飞燕”宝箱的获取是一场对玩家综合探索能力的深度考验。想要成功开启它,不仅需要耐心与观察力,更需掌握系统性的探索策略。 掌握地窟地形与核心布局 进入天工地窟后,首要任务是进行全方位的地形勘察。建议玩家先熟悉主要通道、分支岔路以及所有可能被忽略的角落,建立完整的地图认

热心网友
05.18
2026年家装设计软件推荐:高人气实用工具精选指南
游戏资讯
2026年家装设计软件推荐:高人气实用工具精选指南

装修这件事,说多了都是泪。找施工队像开盲盒,预算表永远在“动态调整”,设计图看得眼花缭乱……投入大量时间和精力,最后的效果可能还是差强人意。说到底,信息不对称和过程不透明,是大多数装修烦恼的根源。 好在,如今有不少专业的数字化工具,能帮我们把控关键环节。今天就来聊聊五款定位清晰、实用性强的装修类应用

热心网友
05.18
燕云十六声山洞奇遇任务全流程攻略与解法详解
游戏资讯
燕云十六声山洞奇遇任务全流程攻略与解法详解

在《燕云十六声》的宏大江湖中,“不见山洞”无疑是一处引人入胜的秘境。这里不仅栖息着珍奇异兽、埋藏着稀世珍宝,更交织着无数待玩家发掘的隐秘故事与特殊事件。若想彻底揭开此地的所有秘密,掌握以下探索技巧至关重要。 进入不见山洞后,首要任务是保持专注,对环境进行细致勘察。洞内的景象暗藏玄机,绝非一目了然。一

热心网友
05.18
骷髅传奇神盾系统玩法详解与获取攻略
游戏资讯
骷髅传奇神盾系统玩法详解与获取攻略

在《骷髅传奇》中,神盾系统是决定角色战力的核心模块,远非一件普通装备可比。它更像是一位能够深度定制、伴随你征战四方的忠实伙伴。本文将为你全面解析神盾系统的获取、培养与实战运用,助你将其从基础配置打造为真正的战力引擎,在游戏中脱颖而出。 获取你的第一面神盾是旅程的起点。游戏内提供了多样化的获取途径:完

热心网友
05.18
和平精英孙悟空皮肤获取与实战技巧全解析
游戏资讯
和平精英孙悟空皮肤获取与实战技巧全解析

天成孙悟空这款限定皮肤,以其独特的视觉设计在战场上脱颖而出。它将中国古典神话中齐天大圣的经典形象,与游戏内的现代美学风格进行了深度结合。标志性的金色毛发、可化为武器的金箍棒特效,以及服饰上精致的云纹与神话元素,共同塑造了一个极具战场辨识度的英雄形象。这种高辨识度本身,在战术层面就具有独特价值——它能

热心网友
05.18