字节跳动正式推出了新一代豆包手机助手的技术预览版。这款产品彻底颠覆了传统语音助手仅支持闹钟和天气预报这类基础功能的刻板印象,它被定位为你手机中真正意义上的“第二大脑”。它拥有视觉感知、长期记忆乃至直接动手操作的能力,甚至能帮用户把手机的每一项功能都彻底弄明白。
豆包手机助手最令人瞩目的突破在于其真正的端侧记忆能力。这是业界首次在手机本地实现了持久化的记忆功能。它能像一位贴心的私人管家那样,记住用户生活中的各种琐碎细节。
在实际演示中,这项能力展现得淋漓尽致。当用户询问车辆停靠位置时,助手能够直接调出用户上次拍摄的车位照片,并精准提供楼层指引信息。
当需要取快递时,它能瞬间读取短信历史并准确报出取件码;甚至当用户询问高铁座位号时,它会自动查找12306的购票记录并告知准确位置。更进一步的是,这种记忆还具备了联想能力——比如它记住了用户最喜欢梵高,那么在规划巴黎行程时,就会优先推荐奥赛博物馆的游览项目。

如果说记忆能力是基础,那么跨App代操作功能就是豆包手机助手的杀手锏。它借助先进的GUI模拟点击技术,能够像真人一样接管手机屏幕,跨越应用壁垒进行自动点击、输入和滑动操作。
在全网比价场景下,用户只需发出简单指令,豆包就能同时打开淘宝、京东、拼多多和抖音电商平台,在短短3秒内给出最低报价,并直接停留在支付页面等待确认。在更复杂的办公场景中,它能够响应“帮我请三天假,顺便订回老家的高铁”这样的复杂需求,自动打开办公软件填写请假单、提交审批,随后无缝跳转至12306完成订票和付款全流程。
甚至连特斯拉车主都能体验到这种便利,一句“打开前备箱放东西”,助手即可直接远程控制车辆执行相应操作。

在多模态交互方面,该助手展现了强大的实时视觉理解能力。当用户拿起一本英文绘本对准摄像头时,豆包手机助手会立即开启实时视频通话模式。
画面中不仅会出现中英双语字幕,AI还能用流利的普通话或英语边讲故事边与用户互动提问,甚至根据孩子的反应临时改编剧情,让整个阅读过程变得生动有趣。

针对模糊且复杂的长链条需求,豆包引入了全新的Pro模式。该模式结合了GUI模拟点击、API工具调用以及超强推理能力,能够完成以往AI根本不敢尝试的复杂任务。
以巴黎旅行为例,用户只需模糊地表达“下个月去巴黎,帮我把收藏的餐厅标到地图上,再帮我订一张有我喜欢展览的博物馆票”,助手便能执行全流程操作。
它首先会读取记忆确认用户喜欢梵高,接着搜索确认奥赛博物馆正在举办梵高特展,随后打开地图应用将收藏的米其林餐厅打点标注,最后跳转至正式抢票平台完成购票,并生成完整的行程单推送至备忘录。

在展现强大能力的同时,字节跳动也极度重视隐私安全问题。最新消息强调,所有的记忆数据均在手机本地进行处理和加密存储,绝对不会上传至云端。
用户拥有完全的控制权,随时可以在设置中一键彻底关闭记忆功能。这样的设计在确保智能体验的同时,也做到了真正的可控可信,为AI时代的隐私保护提供了全新的解题思路。
