首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI下一步演进方向:迈向“看懂世界”的能力新探

AI下一步演进方向:迈向“看懂世界”的能力新探

热心网友
98
转载
2026-04-01

过去一年,AI在数字世界里几乎无所不能。

它能写代码、做PPT、整理会议纪要,也能调用工具、操作网页,完成一整套复杂流程。人们逐渐用“Agent”来概括这种能力,并开始期待,它进一步接管更多工作。

但热闹之外,一个更现实的问题开始浮现。

这些能力之所以成立,是因为它们处理的,是一个已经被“整理好”的世界。文本是结构化的,网页是可解析的,数据库是标准化的。AI并不是在理解现实,而是在处理人类已经翻译过的信息。

一旦离开这个环境,问题就变了。

你用手机拍下一张照片,画面清晰、光影准确,甚至可以还原氛围。但手机并不知道,这个人为什么站在这里,也无法理解这张照片背后发生了什么。你用长焦拉近远处的一个身影,细节纤毫毕现,但它依然无法判断,这个人是在赶路,还是在犹豫。

换言之,目前的AI可以处理信息,但还无法理解世界。

在博鳌亚洲论坛2026年年会期间,vivo与多位技术负责人反复谈到同一个问题:如果AI要真正进入物理世界,它需要的第一步,不是更强的算力,而是获得“看懂世界”的能力。

而手机,可能是这件事最现实的起点。

第一财经《总编看博鳌》节目邀请到vivo AI和影像产品负责人,以及商汤科技联合创始人、大晓机器人董事长王晓刚,开启了关于“AI竞速下半场:感知决胜”的对话。

AI为什么还没有真正改变手机?

如果只看技术演进路径,手机本应是AI最先发生质变的终端。它拥有最广泛的用户基础、最完整的使用场景,以及最密集的数据入口,从语音、图像到位置与行为轨迹,几乎覆盖了人与数字世界交互的全部维度。

但现实却是,AI在手机上的表现始终停留在“有用,但不惊艳”的阶段。

“手机上的AI能力是存在的,但这些能力之间是割裂的,用户的交互方式并没有发生根本变化。”在vivo AI副总裁张飞看来,问题并不在于能力是否存在,而在于这些能力并没有形成一个统一的结构,也没有改变用户与设备之间的基本关系。

过去十年,智能手机逐渐固化出一套以应用为中心的使用路径:用户解锁设备、进入App、执行操作,再返回系统。这一模式将功能拆分为无数独立入口,也让用户始终处在“主动操作”的位置。AI的加入,并没有重构这一流程,而只是嵌入其中,成为某些环节的效率工具。

这也是为什么,大多数用户并没有真正感知到“AI时刻”的到来。

在vivo内部,这一问题也被反复思考,它被进一步拆解后,答案逐渐清晰。首先是任务结构的复杂性。与目标单一的系统不同,手机承载的是高度分散且不断切换的任务集合。沟通、娱乐、搜索与决策往往同时发生,并不存在一个统一目标。

“机上的任务是高度多样化、分散且多线程的。”张飞指出,这使得模型不仅要理解指令,还需要在复杂上下文中进行推理与调度,而这一能力直到近期才逐步成熟。

交互方式的滞后也是原因之一。尽管AI已经具备一定理解能力,但用户依然需要通过寻找入口、点击按钮、组织语言来驱动系统运行。

“用户仍然要去找入口、点按钮、发指令,这本质上没有变化。”张飞认为,这意味着人与机器的关系并未发生根本转变,真正的突破应当是由设备主动理解用户,而不是用户不断适应设备。

更深层的问题,则来自数据本身的分布方式。手机中的信息被封装在不同应用之中,每一个App都是一个相对封闭的系统。AI若要跨应用完成复杂任务,就必须打破这种边界,但这又不可避免地触及隐私与平台规则。

在这一背景下,vivo选择将更多智能能力部署在端侧。

“不是把数据带到智能那里,而是把智能带到数据所在的地方。”张飞的这一判断,走的是一种以本地理解为核心的路径,也重新定义了手机在AI时代的角色。AI不再只是应用的容器,而是一个能够整合信息、完成推理的智能中枢。

但即便完成这些调整,手机仍然缺少一项更基础的能力:对现实世界的理解。

这也是AI尚未真正改变手机的根本原因。

AI正在离开手机,走向现实世界

如果把AI的发展划分阶段,它正在经历一次关键的方向转移。

“AI 1.0依赖人工标注,AI 2.0依赖互联网数据,而AI 3.0将进入物理世界。”商汤科技联合创始人、执行董事,大晓机器人董事长王晓刚用这一划分描述了AI的演进路径。在这一框架中,当前的大模型仍然建立在“被数字化信息”的基础之上。

“智能是在与物理环境的交互中产生的。”他说。

这一判断意味着,仅依赖文本与图像训练的模型,虽然能够在表达与生成层面表现出色,但依然无法真正参与现实。它们可以解释世界,却无法行动;可以生成答案,却难以完成任务。

这也是为什么,今天的Agent可以处理复杂文档,却难以完成现实中的简单行为。寻找物品、判断情绪或应对动态环境,这些问题之所以困难,并不在于逻辑复杂,而在于它们发生在一个非结构化的世界之中。空间关系在变化,环境在波动,而力、触觉、摩擦等关键变量难以被标准化描述。

王晓刚以一个具体动作举例:抓起一瓶水。这一过程涉及重量判断、接触方式与角度控制,而这些因素在不同情境中不断变化。对于当前模型而言,这类信息几乎不存在于训练数据中。

在这样的背景下,从“理解信息”到“理解世界”,成为AI必须跨越的一道鸿沟。

它不仅要求AI能够理解物理规律,还需要具备对环境变化的预测能力,以及在不确定条件下做出决策的能力。这已经不再是模型规模的简单扩展,而是数据来源与训练方式的根本转变。

“我们需要第一视角的数据。”王晓刚指出,与互联网数据不同,这类数据来自人与环境的真实互动过程,包含连续的行为、空间关系与情境变化。只有在这样的数据基础上,AI才可能逐步建立起对现实的认知。

在这一过程中,手机的重要性开始凸显。它并非算力最强的设备,也不是执行动作的终端,但它是最贴近用户、最频繁参与现实互动的入口。作为一个随身设备,手机持续记录人与世界之间的关系,这使其在新一轮数据范式转移中占据关键位置。

张飞也从另一个角度强调了这一趋势。他认为,AI要进入具身智能阶段,就必须同时理解数字世界与物理世界,而后者是不可回避的基础。“AI真正需要知道的是,你是谁,你在哪里,你在做什么,你周围发生了什么。”

这也解释了为什么,影像能力在这一轮AI演进中,被重新放到核心位置。

影像成为AI理解世界的起点

在过去十年里,手机影像的竞争,本质是“拍得更好”。更高像素、更强防抖、更真实的色彩还原,构成了主要技术路径。但在AI语境下,影像的意义正在发生变化。

“影像是AI进入物理世界的一扇门。”张飞说。

这一判断背后,是影像能力的重新定义。

vivo 影像高级产品规划专家李卓指出,影像的核心价值正在从“记录”转向“获取信息”。随着能力增强,影像系统不再只是服务拍摄需求,而是开始具备对环境的分析能力。

他举了一个已经落地的例子:通过摄像头,系统可以实时识别环境结构,帮助视障人士理解周围空间,包括物体位置与相对关系。这种能力,本质上已经超出了传统影像的范畴。

“相机不再等你按快门,它在打开的一瞬间,就开始理解环境。”李卓的这句话,描述的是影像系统工作方式的改变——从拍摄后的处理,转向拍摄过程中的实时理解。设备开始结合环境信息,对用户行为做出响应,甚至参与到决策之中,从而使相机逐渐从工具转变为协作者。

这种变化,也在具体产品上得到体现。3月30日刚刚发布的vivo X300 Ultra,围绕影像能力进行了系统性升级。该机搭载行业最远的400mm增距镜,并配合专业兔笼等模块化设备,使手机在远距离拍摄与稳定性上进一步接近专业设备水平。

在视频能力方面,vivo X300 Ultra支持全焦段4K 120fps 10bit Log与杜比视界录制,并在防抖、对焦与高像素成像之间实现协同,形成更完整的动态影像体系。同时,其专业摄影机模式与视频调色能力,将拍摄与后期流程进一步整合,使移动设备逐步具备接近专业创作工具的工作方式。

这些能力的意义,并不仅仅在于“拍得更好”,而在于让影像系统能够捕捉更完整的环境信息。从空间结构到动态变化,再到声音采集(如“四麦收音系统”对环境声的处理),手机正在形成一个多维感知入口,为AI提供更丰富的现实数据。

李卓的判断是:“‘身临其境’会从形容词变成能力。”当图像不再只是静态画面,而成为可以被理解、被分析甚至被重建的信息载体时,影像也就成为AI进入现实世界的起点。

而在博鳌亚洲论坛这样的高密度信息场景中,这种能力也开始呈现出更现实的意义。对于媒体而言,报道不再只是记录发言与整理观点,还包括对现场环境、人物状态以及细节变化的捕捉。在这一过程中,手机逐渐从记录工具转变为生产工具。在今年博鳌论坛的现场,也出现了很多媒体使用vivo X300 Ultra及其增距镜、兔笼等拓展套件,跑新闻的场景。

以vivo X300 Ultra为代表的影像能力,使记者可以在复杂光线与远距离场景下完成稳定拍摄,并通过高规格视频与音频记录,直接获取可用于制作的内容素材。从会场发言到场外交流,从宏观场景到细节特写,一部手机即可覆盖大部分采集需求。

这种能力的提升,使移动设备在新闻生产流程中的角色进一步前移,也让“第一现场”的信息获取更加完整与高效。

如果说过去两年的AI,已经完成了对数字世界的重构,那么下一步,它必须进入现实。vivo给出的答案,已足够清晰,因为只有当世界被理解,AI才真正有机会改变它。

来源:https://www.163.com/dy/article/KPE661BH0519DDQ2.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

HMD 150 4G功能机配置曝光 搭载展锐T107处理器
业界动态
HMD 150 4G功能机配置曝光 搭载展锐T107处理器

近日,HMD Global旗下新款功能手机HMD 150 4G的详细规格信息进一步曝光。作为此前HMD 150 Music(2G版本)的全面升级款,这款4G功能机在核心硬件上进行了多项重要改进。 此次升级的核心亮点主要体现在处理器、影像系统和电池续航三大方面。首先,处理器由原先的紫光展锐6531F,

热心网友
05.22
摩托罗拉 Moto Edge 2026 渲染图曝光 直屏设计搭配香槟金配色
科技数码
摩托罗拉 Moto Edge 2026 渲染图曝光 直屏设计搭配香槟金配色

5月19日,知名科技媒体Digital Citizen独家曝光了摩托罗拉Moto Edge(2026款)的高清渲染图,为我们揭示了这款备受期待的新一代旗舰手机的设计雏形。 外观与设计亮点 从泄露的渲染图分析,新款Moto Edge在外观设计上继承了前代产品的经典基因,并进行了精致化升级。整机最吸睛之

热心网友
05.19
荣耀新款手机线下真机曝光 超大电池配置全解析
科技数码
荣耀新款手机线下真机曝光 超大电池配置全解析

荣耀600系列将于5月25日晚发布,包含超级版和Pro版两款机型。超级版搭载骁龙7Gen4处理器,配备6 57英寸120HzOLED屏、2亿像素主摄及8600mAh电池,支持IP68 IP69 IP69K防护。Pro版升级为天玑8550Elite芯片,增加5000万像素潜望长焦镜头,支持全焦段4K视频,电池为8000mAh并加入50W无线充电。两款机型在性能

热心网友
05.16
iPhone Air降价后销量仅70万台 传国内厂商将放弃该系列迭代
科技数码
iPhone Air降价后销量仅70万台 传国内厂商将放弃该系列迭代

苹果iPhoneAir手机多轮降价后销量仅勉强突破70万台,市场表现不佳。国内某厂商同类型产品销量低迷,已计划搁置迭代计划。多家厂商未跟进或已砍掉类似项目,因超薄设计需在续航、性能等方面做出妥协,导致该品类市场非常小众。

热心网友
05.12
OPPO Reno16系列新机曝光或将搭载智能电子屏
业界动态
OPPO Reno16系列新机曝光或将搭载智能电子屏

OPPOReno16系列新机曝光,包含Pro版与标准版。Pro版搭载6 78英寸1 5K直屏、天玑9500s处理器、7000mAh电池及2亿像素主摄领衔的全焦段影像系统。标准版采用6 32英寸小直屏、天玑8550处理器和6700mAh电池,主摄配置与Pro版一致。系列可能配套智能电子屏配件,支持自定义壁纸与遥控拍照。新机预计本月发布,Pro版在屏幕、性能、续

热心网友
05.10

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

面壁智能开源全双工全模态模型MiniCPM-o 4.5详解
AI资讯
面壁智能开源全双工全模态模型MiniCPM-o 4.5详解

MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交

热心网友
05.23
2025欧易OKX官网正版APP下载入口及安全获取教程
web3.0
2025欧易OKX官网正版APP下载入口及安全获取教程

Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK

热心网友
05.23
国产AI社交平台SecondMe:真人发帖与智能互动体验
AI资讯
国产AI社交平台SecondMe:真人发帖与智能互动体验

SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发

热心网友
05.23
阶跃星辰开源Step 3.5 Flash基座模型详解
AI资讯
阶跃星辰开源Step 3.5 Flash基座模型详解

在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而

热心网友
05.23
美团开源LongCat大语言模型Flash Lite版本详解
AI资讯
美团开源LongCat大语言模型Flash Lite版本详解

LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M

热心网友
05.23