首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
智谱首款手机Agent实测:创新思路亮眼,真实场景体验仍有不足

智谱首款手机Agent实测:创新思路亮眼,真实场景体验仍有不足

热心网友
23
转载
2025-08-22

如果一个Agent只能用固定的功能,那它还是Agent吗?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在去年AutoGLM的发布会上,智谱CEO张鹏用AutoGLM演示了一次自动化操作:面对面建群、修改群名、在群里发出一百个红包,总额两万元。观众惊叹,这是一个能“操控手机”的AI。然而,只要把演示舞台换成真实世界,问题立刻浮现——不同用户的微信版本不一样,UI布局有差异,有人用折叠屏,有人用小屏手机,甚至连广告弹窗都可能打断任务。对大模型来说,这些不确定性,都是无法完全掌握的变量。

智谱选择的答案并不是继续提高模型的“认知力”,而是另辟蹊径:直接绕开现实世界的不确定性,造一个“标准化”的世界。AutoGLM 2.0的核心不是算法突破,而是一台云手机——尺寸统一、软件版本统一、功能范围统一。在这个虚拟世界里,Agent的操作才能被保证。

换句话说,AutoGLM 2.0体现出的思路,不是在驯服手机,而是在用一种自己建立一个环境来驯服混乱的现实。

这个思路诞生的产品,究竟怎么样呢?

AutoGLM的“标准化”的世界

AutoGLM有两个云端设备,一台智能体手机一台智能体电脑。手机主要担任生活助手的功能,负责出行点餐,而电脑承担着办公研究的功能。

我们分别看一下两台设备,智谱为了让Agent运行,定制的世界保留了哪些功能,又牺牲了哪些。

1. AutoGLM云手机

手机端除去系统自带的相机、时钟等APP,额外一共有30款APP,基本可以覆盖生活和娱乐。

社交资讯:微博、小红书、今日头条

长短视频:红果、抖音、快手、B站、爱奇艺、腾讯视频、芒果TV

音乐广播:QQ音乐、汽水音乐、喜马拉雅

小说阅读:番茄小说

消费购物:同花顺、淘宝、京东、拼多多

本地生活:美团、饿了么、大众点评、支付宝、KFC、Keep

出行与旅行:滴滴打车、携程、去哪儿、高德

租房:贝壳找房

想用浏览器下载新的软件?很遗憾,智谱也把这条路堵死了。我尝试安装盒马和知乎,系统直接禁止,提示软件包无效,甚至把知乎的官方下载网页给404了。

随后再来看一下配置,云手机是一台基于安卓14设备,型号是SM-F900F,从搜索信息来看,这台设备居然是三星第一代折叠手机Galaxy Fold?(红米不香吗?)如果云手机使用的是完整设备,而不仅仅是使用Fold的系统,那么配置就是骁龙855处理器,12GB RAM+512GB存储。

2. AutoGLM云电脑

AutoGLM云电脑是一款基于Ubuntu系统的设备,从软件生态上来看,除了浏览器外,云电脑只安装了Libre办公软件,也许AutoGLM所谓的办公就是Word、Excel、PPT三件套吧。同样,AutoGLM云电脑把Ubuntu Softstore删除,禁止用户下载新软件。

AutoGLM实测:广告与登录成最大障碍

看完对AutoGLM云手机和云电脑的大致了解,我们也清楚了AutoGLM的能力边界,接下来就是测试AutoGLM在限定的环境中,表现如何。

1. 云手机任务——淘宝购物

prompts:帮我清空淘宝购物车再购买官方店铺的iphone16 pro 1t版本

在淘宝购物测试中,AutoGLM展现了较为完整的流程:从网页搜索、需求澄清到应用操作。问题出现在账号登录环节——如今国内的应用几乎都要求登录才能使用。AutoGLM会在检测到登录需求时提示用户“接管”,由人手动输入账号密码,再退出接管继续任务。

然而,问题在于,国内APP对于账号“安全意识”极高,很多应用的安全验证远比输入账号复杂。比如登录小红书时提示我需要用旧设备扫码才能登录,而我的旧设备正在使用AutoGLM;登录抖音时候需要我扫脸进行身份验证,但AutoGLM一直显示加载(摄像头)资源,好不容易加载完成,镜头中的我也十分“扭曲”导致识别错误登录失败。

小红书登录失败也直接导致了一些联动功能不能用,比如在去年AutoGLM版本中,可以实现在小红书搜红烧肉做法及食材,然后在小象超市购买。

当然这个锅不能由AutoGLM来背,国内手机应用生态可能真的不适合AutoGLM发展。更糟糕的是AutoGLM不会记住用户的账号密码,这个很安全,但每次使用需要登录的APP过程也非常煎熬。

此外,我在使用抖音人脸识别登录时发现,当AutoGLM调用摄像头资源后,你在AutoGLM云手机中退出抖音(清理后台)并不会结束AutoGLM对摄像头的调用,除非你把AutoGLM关闭。

回到任务,除去登录等问题AutoGLM可以轻松完成清空购物车等任务。在执行删除、购买等关键动作的时候,AutoGLM会提醒用户是否要继续。

2. 云手机任务——购买机票

prompts:上去哪儿网买一张后天11点到14点,从上海飞北京的机票,不要波音飞机

该任务并不复杂,但我特意选择了在23点接近凌晨的时间进行测试。任务有几个关键点需要AI识别,分别是“后天”“11点到14点”“上海飞北京”“不要波音”。

尝试了两次都失败了。先看航班,AutoGLM第一次在机票时间上出错,第二次在日期出错,但航程起点和终点是正确的并且都没有选择波音。

至于出错的原因,我仔细看了AutoGLM的操作逻辑。首先是日期选择的bug:进入日历页面再退出后,“后天”常常会莫名变成“大后天”。这种问题并不稳定复现,但足够说明它在基础交互上还不够可靠。

时间选择的问题更明显。AutoGLM并不是在真正理解“11点到14点”这个条件,而是机械地依赖去哪儿网的预设选项,只有“9–12点”和“12–15点”。它会随便挑一个区间,若刚好有符合的航班,那就是“歪打正着”,一旦没有,就直接出错。换句话说,这并不是智能,而是凑巧。

在测试该任务的时候,还发现了和会员登录同样麻烦的东西——弹出广告。一旦有广告弹出,AutoGLM会愣在那边,等几秒后,有良心的广告会自动消失,AutoGLM就会继续执行任务,而遇到那些不会消失的广告,AutoGLM就会需要用户接管,严重影响进程流畅性。

3. 云电脑任务——制作PPT发小红书

和AutoGLM云手机不同,云电脑只能操控浏览器,因此,让其生成PPT、表格等内容,它都会用智谱CodeX编程来完成。从页面上来看,可以认为AutoGLM(云电脑)就是一个Agent增加了可以控制浏览器的功能。

prompts:搜索特斯拉最新发售的Model YL信息,并做成ppt发布到小红书

在执行时,AutoGLM会先通过浏览器搜索,打开汽车之家等页面收集信息,再整理成Markdown文档,最终生成PPT,供用户下载。这一步其实并不特别,kimi、元宝、豆包等工具也都能做到。

AutoGLM最大的特点是调用浏览器,也就是任务的最后一步“发布到小红书”。遗憾的是AutoGLM失败了,它成功打开了小红书发布网页,但卡在“上传”页面。原因可能是AutoGLM没有完成把PPT转换成图片的这一它已经规划好的任务。

为了验证AutoGLM操控浏览器的能力,我选择的官方建议的DEMO尝试了一遍。

帮我生成一个视频,一个小狗半夜偷偷地去蹦床上跳,监控视角。然后把这个视频发到小红书上,和大家分享

结果依然一样,内容生成没问题,但到了上传页面,AutoGLM只能提示“请手动上传”。我接管电脑后发现,更尴尬的是:云电脑貌似保存生成的视频文件,只能找到前几个任务遗留的PPT和.py文件。

其实从AutoGLM的介绍页面也能看出,其主要功能就是AI PPT、AI视频、AI播客、AI研报、AI编程等功能,单独配置个云电脑有必要吗?

回到文章开头的问题:如果一个Agent只能用固定的功能,那它还是Agent吗?答案或许并不重要。AutoGLM已经用“标准化”的云手机和云电脑,证明了智能体依然可以存在,只是它不再是那个能适配一切的万能助手,而是一个在边界内精细运转的机器。

但现实世界的混乱始终在那里,即便解决了不同版本的应用和尺寸,还有会有层出不穷的验证机制、永远跳不完的广告弹窗。

智谱解决了一部分难题,但依然还有一些没解决。

本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:董道力

-->

本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:董道力

如果一个Agent只能用固定的功能,那它还是Agent吗?

在去年AutoGLM的发布会上,智谱CEO张鹏用AutoGLM演示了一次自动化操作:面对面建群、修改群名、在群里发出一百个红包,总额两万元。观众惊叹,这是一个能“操控手机”的AI。然而,只要把演示舞台换成真实世界,问题立刻浮现——不同用户的微信版本不一样,UI布局有差异,有人用折叠屏,有人用小屏手机,甚至连广告弹窗都可能打断任务。对大模型来说,这些不确定性,都是无法完全掌握的变量。

智谱选择的答案并不是继续提高模型的“认知力”,而是另辟蹊径:直接绕开现实世界的不确定性,造一个“标准化”的世界。AutoGLM 2.0的核心不是算法突破,而是一台云手机——尺寸统一、软件版本统一、功能范围统一。在这个虚拟世界里,Agent的操作才能被保证。

换句话说,AutoGLM 2.0体现出的思路,不是在驯服手机,而是在用一种自己建立一个环境来驯服混乱的现实。

这个思路诞生的产品,究竟怎么样呢?

AutoGLM的“标准化”的世界

AutoGLM有两个云端设备,一台智能体手机一台智能体电脑。手机主要担任生活助手的功能,负责出行点餐,而电脑承担着办公研究的功能。

我们分别看一下两台设备,智谱为了让Agent运行,定制的世界保留了哪些功能,又牺牲了哪些。

1. AutoGLM云手机

手机端除去系统自带的相机、时钟等APP,额外一共有30款APP,基本可以覆盖生活和娱乐。

社交资讯:微博、小红书、今日头条

长短视频:红果、抖音、快手、B站、爱奇艺、腾讯视频、芒果TV

音乐广播:QQ音乐、汽水音乐、喜马拉雅

小说阅读:番茄小说

消费购物:同花顺、淘宝、京东、拼多多

本地生活:美团、饿了么、大众点评、支付宝、KFC、Keep

出行与旅行:滴滴打车、携程、去哪儿、高德

租房:贝壳找房

想用浏览器下载新的软件?很遗憾,智谱也把这条路堵死了。我尝试安装盒马和知乎,系统直接禁止,提示软件包无效,甚至把知乎的官方下载网页给404了。

随后再来看一下配置,云手机是一台基于安卓14设备,型号是SM-F900F,从搜索信息来看,这台设备居然是三星第一代折叠手机Galaxy Fold?(红米不香吗?)如果云手机使用的是完整设备,而不仅仅是使用Fold的系统,那么配置就是骁龙855处理器,12GB RAM+512GB存储。

2. AutoGLM云电脑

AutoGLM云电脑是一款基于Ubuntu系统的设备,从软件生态上来看,除了浏览器外,云电脑只安装了Libre办公软件,也许AutoGLM所谓的办公就是Word、Excel、PPT三件套吧。同样,AutoGLM云电脑把Ubuntu Softstore删除,禁止用户下载新软件。

AutoGLM实测:广告与登录成最大障碍

看完对AutoGLM云手机和云电脑的大致了解,我们也清楚了AutoGLM的能力边界,接下来就是测试AutoGLM在限定的环境中,表现如何。

1. 云手机任务——淘宝购物

prompts:帮我清空淘宝购物车再购买官方店铺的iphone16 pro 1t版本

在淘宝购物测试中,AutoGLM展现了较为完整的流程:从网页搜索、需求澄清到应用操作。问题出现在账号登录环节——如今国内的应用几乎都要求登录才能使用。AutoGLM会在检测到登录需求时提示用户“接管”,由人手动输入账号密码,再退出接管继续任务。

然而,问题在于,国内APP对于账号“安全意识”极高,很多应用的安全验证远比输入账号复杂。比如登录小红书时提示我需要用旧设备扫码才能登录,而我的旧设备正在使用AutoGLM;登录抖音时候需要我扫脸进行身份验证,但AutoGLM一直显示加载(摄像头)资源,好不容易加载完成,镜头中的我也十分“扭曲”导致识别错误登录失败。

小红书登录失败也直接导致了一些联动功能不能用,比如在去年AutoGLM版本中,可以实现在小红书搜红烧肉做法及食材,然后在小象超市购买。

当然这个锅不能由AutoGLM来背,国内手机应用生态可能真的不适合AutoGLM发展。更糟糕的是AutoGLM不会记住用户的账号密码,这个很安全,但每次使用需要登录的APP过程也非常煎熬。

此外,我在使用抖音人脸识别登录时发现,当AutoGLM调用摄像头资源后,你在AutoGLM云手机中退出抖音(清理后台)并不会结束AutoGLM对摄像头的调用,除非你把AutoGLM关闭。

回到任务,除去登录等问题AutoGLM可以轻松完成清空购物车等任务。在执行删除、购买等关键动作的时候,AutoGLM会提醒用户是否要继续。

2. 云手机任务——购买机票

prompts:上去哪儿网买一张后天11点到14点,从上海飞北京的机票,不要波音飞机

该任务并不复杂,但我特意选择了在23点接近凌晨的时间进行测试。任务有几个关键点需要AI识别,分别是“后天”“11点到14点”“上海飞北京”“不要波音”。

尝试了两次都失败了。先看航班,AutoGLM第一次在机票时间上出错,第二次在日期出错,但航程起点和终点是正确的并且都没有选择波音。

至于出错的原因,我仔细看了AutoGLM的操作逻辑。首先是日期选择的bug:进入日历页面再退出后,“后天”常常会莫名变成“大后天”。这种问题并不稳定复现,但足够说明它在基础交互上还不够可靠。

时间选择的问题更明显。AutoGLM并不是在真正理解“11点到14点”这个条件,而是机械地依赖去哪儿网的预设选项,只有“9–12点”和“12–15点”。它会随便挑一个区间,若刚好有符合的航班,那就是“歪打正着”,一旦没有,就直接出错。换句话说,这并不是智能,而是凑巧。

在测试该任务的时候,还发现了和会员登录同样麻烦的东西——弹出广告。一旦有广告弹出,AutoGLM会愣在那边,等几秒后,有良心的广告会自动消失,AutoGLM就会继续执行任务,而遇到那些不会消失的广告,AutoGLM就会需要用户接管,严重影响进程流畅性。

3. 云电脑任务——制作PPT发小红书

和AutoGLM云手机不同,云电脑只能操控浏览器,因此,让其生成PPT、表格等内容,它都会用智谱CodeX编程来完成。从页面上来看,可以认为AutoGLM(云电脑)就是一个Agent增加了可以控制浏览器的功能。

prompts:搜索特斯拉最新发售的Model YL信息,并做成ppt发布到小红书

在执行时,AutoGLM会先通过浏览器搜索,打开汽车之家等页面收集信息,再整理成Markdown文档,最终生成PPT,供用户下载。这一步其实并不特别,kimi、元宝、豆包等工具也都能做到。

AutoGLM最大的特点是调用浏览器,也就是任务的最后一步“发布到小红书”。遗憾的是AutoGLM失败了,它成功打开了小红书发布网页,但卡在“上传”页面。原因可能是AutoGLM没有完成把PPT转换成图片的这一它已经规划好的任务。

为了验证AutoGLM操控浏览器的能力,我选择的官方建议的DEMO尝试了一遍。

帮我生成一个视频,一个小狗半夜偷偷地去蹦床上跳,监控视角。然后把这个视频发到小红书上,和大家分享

结果依然一样,内容生成没问题,但到了上传页面,AutoGLM只能提示“请手动上传”。我接管电脑后发现,更尴尬的是:云电脑貌似保存生成的视频文件,只能找到前几个任务遗留的PPT和.py文件。

其实从AutoGLM的介绍页面也能看出,其主要功能就是AI PPT、AI视频、AI播客、AI研报、AI编程等功能,单独配置个云电脑有必要吗?

回到文章开头的问题:如果一个Agent只能用固定的功能,那它还是Agent吗?答案或许并不重要。AutoGLM已经用“标准化”的云手机和云电脑,证明了智能体依然可以存在,只是它不再是那个能适配一切的万能助手,而是一个在边界内精细运转的机器。

但现实世界的混乱始终在那里,即便解决了不同版本的应用和尺寸,还有会有层出不穷的验证机制、永远跳不完的广告弹窗。

智谱解决了一部分难题,但依然还有一些没解决。

本文来自微信公众号:硅星人Pro (ID:gh_c0bb185caa8d),作者:董道力

来源:https://www.huxiu.com/article/4718355.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

扎克伯格:不惜重金投资AI,不愿错失未来机遇
科技数码
扎克伯格:不惜重金投资AI,不愿错失未来机遇

在当前的人工智能(AI)盛宴中,似乎每个科技巨头都在不计后果地“砸重金”,确保不会在这场竞赛中落后。Meta首席执行官马克·扎克伯格也不例外,他正斥巨资确保Meta不会错过人工智能的“大好时机”。在

热心网友
12.12
英伟达斥巨资布局AI投资赛道
科技数码
英伟达斥巨资布局AI投资赛道

几天前,咱刚带大伙儿看过英伟达支援英特尔的逆袭爽文,世超都还没缓过来,前天老黄居然又搞了一波史无前例的大动作。这真不是咱夸大其词,天天非要整点大新闻。而是前天,英伟达放出计划,要掏出1000亿美元投

热心网友
12.12
淘宝AI技术为电商搜索开辟全新路径
科技数码
淘宝AI技术为电商搜索开辟全新路径

众所周知,最近两个月,淘宝搜索的AI化有了明显的提速趋势。8月,淘宝低调全量上线了“AI万能搜”产品;9月,淘宝“AI助手”传出内测消息、拍立淘的“AI找低价”也全量上线。这三个产品分别覆盖了传统搜

热心网友
12.12
图灵奖得主Valiant:人类需主导AI,构建伙伴关系
科技数码
图灵奖得主Valiant:人类需主导AI,构建伙伴关系

去年暑期,图灵奖得主、英国计算机科学家莱斯利·瓦利安特(Leslie Valiant)在北京出席2024国际基础科学大会(ICBS)时,获颁理论计算机与信息科学领域基础科学终身成就奖。瓦利安特在理论

热心网友
12.12
百度与AI技术发展前景分析
科技数码
百度与AI技术发展前景分析

近来百度搜索全面AI化,作为核心业务,内部称大搜,确如百度AIDay上所称,为十年来最大变化。然而众所周知,搜索的关键字零散,隐约指向用户的问题,而AI预期的Agent模式,能够辅助执行完整的任务,

热心网友
12.11

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08
什么是CTSI代币?代币经济学怎么样?
web3.0
什么是CTSI代币?代币经济学怎么样?

CTSI代币深度解析:Cartesi网络的灵魂与价值引擎 在飞速演进的Web3世界中,区块链的可扩展性始终是制约其大规模应用的核心瓶颈。Cartesi网络以其独特的“链下计算”方案脱颖而出,而驱动这一精密生态运转的核心燃料,正是CTSI代币。它不仅仅是一种支付媒介,更是集成了支付结算、网络安全、去中

热心网友
04.08
SUI区块链的技术基础包括什么?共识机制的工作原理是什么?
web3.0
SUI区块链的技术基础包括什么?共识机制的工作原理是什么?

SUI区块链技术深度解析:如何重塑高性能公链格局 当谈到下一代高性能区块链时,SUI区块链凭借其革命性的技术架构,已成为行业无法绕开的焦点。其核心竞争力并非源于单一优化,而是由Move编程语言、以对象为核心的数据模型以及并行执行引擎三者深度协同构成的完整技术体系。更引人注目的是其共识层的创新——Na

热心网友
04.08
Mintlayer的智能合约如何运作?与以太坊Solidity模型有什么不同?
web3.0
Mintlayer的智能合约如何运作?与以太坊Solidity模型有什么不同?

Mintlayer与Solidity:两套智能合约体系的核心差异与未来展望 在Web3蓬勃发展的今天,智能合约的重要性已经毋庸置疑。当我们提起这一概念,以太坊的Solidity语言和EVM虚拟机几乎是绕不开的首选。然而,随着比特币生态的复兴,一种基于UTXO模型的创新方案——Mintlayer,正凭

热心网友
04.08
比特币(BTC)RSI现2025年末熊市相似走势,周线数据揭示市场底部信号
web3.0
比特币(BTC)RSI现2025年末熊市相似走势,周线数据揭示市场底部信号

比特币周线RSI跌至27 8:重演2022年熊市见底信号? 近期,比特币市场正弥漫着一种历史性的熟悉感。技术分析领域的焦点指标——周线相对强弱指数(RSI)——已下探至27 8的关键位置。这一数值正无限逼近2022年6月熊市期间确认市场超卖的阈值。市场分析师普遍认为,这种技术指标的趋同性,可能是一个

热心网友
04.08