AI下一步演进方向：迈向“看懂世界”的能力新探

首页/科技数码/文章详情

AI下一步演进方向：迈向“看懂世界”的能力新探

时间：2026-04-01 13:07

过去一年，AI在数字世界里几乎无所不能。它能写代码、做PPT、整理会议纪要，也能调用工具、操作网页，完成一整套复杂流程。人们逐渐用“Agent”来概括这种能力，并开始期待，它进一步接管更多工作。但热

过去一年，AI在数字世界里几乎无所不能。

它能写代码、做PPT、整理会议纪要，也能调用工具、操作网页，完成一整套复杂流程。人们逐渐用“Agent”来概括这种能力，并开始期待，它进一步接管更多工作。

但热闹之外，一个更现实的问题开始浮现。

这些能力之所以成立，是因为它们处理的，是一个已经被“整理好”的世界。文本是结构化的，网页是可解析的，数据库是标准化的。AI并不是在理解现实，而是在处理人类已经翻译过的信息。

一旦离开这个环境，问题就变了。

你用手机拍下一张照片，画面清晰、光影准确，甚至可以还原氛围。但手机并不知道，这个人为什么站在这里，也无法理解这张照片背后发生了什么。你用长焦拉近远处的一个身影，细节纤毫毕现，但它依然无法判断，这个人是在赶路，还是在犹豫。

换言之，目前的AI可以处理信息，但还无法理解世界。

在博鳌亚洲论坛2026年年会期间，vivo与多位技术负责人反复谈到同一个问题：如果AI要真正进入物理世界，它需要的第一步，不是更强的算力，而是获得“看懂世界”的能力。

而手机，可能是这件事最现实的起点。

第一财经《总编看博鳌》节目邀请到vivo AI和影像产品负责人，以及商汤科技联合创始人、大晓机器人董事长王晓刚，开启了关于“AI竞速下半场：感知决胜”的对话。

AI为什么还没有真正改变手机？

如果只看技术演进路径，手机本应是AI最先发生质变的终端。它拥有最广泛的用户基础、最完整的使用场景，以及最密集的数据入口，从语音、图像到位置与行为轨迹，几乎覆盖了人与数字世界交互的全部维度。

但现实却是，AI在手机上的表现始终停留在“有用，但不惊艳”的阶段。

“手机上的AI能力是存在的，但这些能力之间是割裂的，用户的交互方式并没有发生根本变化。”在vivo AI副总裁张飞看来，问题并不在于能力是否存在，而在于这些能力并没有形成一个统一的结构，也没有改变用户与设备之间的基本关系。

过去十年，智能手机逐渐固化出一套以应用为中心的使用路径：用户解锁设备、进入App、执行操作，再返回系统。这一模式将功能拆分为无数独立入口，也让用户始终处在“主动操作”的位置。AI的加入，并没有重构这一流程，而只是嵌入其中，成为某些环节的效率工具。

这也是为什么，大多数用户并没有真正感知到“AI时刻”的到来。

在vivo内部，这一问题也被反复思考，它被进一步拆解后，答案逐渐清晰。首先是任务结构的复杂性。与目标单一的系统不同，手机承载的是高度分散且不断切换的任务集合。沟通、娱乐、搜索与决策往往同时发生，并不存在一个统一目标。

“机上的任务是高度多样化、分散且多线程的。”张飞指出，这使得模型不仅要理解指令，还需要在复杂上下文中进行推理与调度，而这一能力直到近期才逐步成熟。

交互方式的滞后也是原因之一。尽管AI已经具备一定理解能力，但用户依然需要通过寻找入口、点击按钮、组织语言来驱动系统运行。

“用户仍然要去找入口、点按钮、发指令，这本质上没有变化。”张飞认为，这意味着人与机器的关系并未发生根本转变，真正的突破应当是由设备主动理解用户，而不是用户不断适应设备。

更深层的问题，则来自数据本身的分布方式。手机中的信息被封装在不同应用之中，每一个App都是一个相对封闭的系统。AI若要跨应用完成复杂任务，就必须打破这种边界，但这又不可避免地触及隐私与平台规则。

在这一背景下，vivo选择将更多智能能力部署在端侧。

“不是把数据带到智能那里，而是把智能带到数据所在的地方。”张飞的这一判断，走的是一种以本地理解为核心的路径，也重新定义了手机在AI时代的角色。AI不再只是应用的容器，而是一个能够整合信息、完成推理的智能中枢。

但即便完成这些调整，手机仍然缺少一项更基础的能力：对现实世界的理解。

这也是AI尚未真正改变手机的根本原因。

AI正在离开手机，走向现实世界

如果把AI的发展划分阶段，它正在经历一次关键的方向转移。

“AI 1.0依赖人工标注，AI 2.0依赖互联网数据，而AI 3.0将进入物理世界。”商汤科技联合创始人、执行董事，大晓机器人董事长王晓刚用这一划分描述了AI的演进路径。在这一框架中，当前的大模型仍然建立在“被数字化信息”的基础之上。

“智能是在与物理环境的交互中产生的。”他说。

这一判断意味着，仅依赖文本与图像训练的模型，虽然能够在表达与生成层面表现出色，但依然无法真正参与现实。它们可以解释世界，却无法行动；可以生成答案，却难以完成任务。

这也是为什么，今天的Agent可以处理复杂文档，却难以完成现实中的简单行为。寻找物品、判断情绪或应对动态环境，这些问题之所以困难，并不在于逻辑复杂，而在于它们发生在一个非结构化的世界之中。空间关系在变化，环境在波动，而力、触觉、摩擦等关键变量难以被标准化描述。

王晓刚以一个具体动作举例：抓起一瓶水。这一过程涉及重量判断、接触方式与角度控制，而这些因素在不同情境中不断变化。对于当前模型而言，这类信息几乎不存在于训练数据中。

在这样的背景下，从“理解信息”到“理解世界”，成为AI必须跨越的一道鸿沟。

它不仅要求AI能够理解物理规律，还需要具备对环境变化的预测能力，以及在不确定条件下做出决策的能力。这已经不再是模型规模的简单扩展，而是数据来源与训练方式的根本转变。

“我们需要第一视角的数据。”王晓刚指出，与互联网数据不同，这类数据来自人与环境的真实互动过程，包含连续的行为、空间关系与情境变化。只有在这样的数据基础上，AI才可能逐步建立起对现实的认知。

在这一过程中，手机的重要性开始凸显。它并非算力最强的设备，也不是执行动作的终端，但它是最贴近用户、最频繁参与现实互动的入口。作为一个随身设备，手机持续记录人与世界之间的关系，这使其在新一轮数据范式转移中占据关键位置。

张飞也从另一个角度强调了这一趋势。他认为，AI要进入具身智能阶段，就必须同时理解数字世界与物理世界，而后者是不可回避的基础。“AI真正需要知道的是，你是谁，你在哪里，你在做什么，你周围发生了什么。”

这也解释了为什么，影像能力在这一轮AI演进中，被重新放到核心位置。

影像成为AI理解世界的起点

在过去十年里，手机影像的竞争，本质是“拍得更好”。更高像素、更强防抖、更真实的色彩还原，构成了主要技术路径。但在AI语境下，影像的意义正在发生变化。

“影像是AI进入物理世界的一扇门。”张飞说。

这一判断背后，是影像能力的重新定义。

vivo 影像高级产品规划专家李卓指出，影像的核心价值正在从“记录”转向“获取信息”。随着能力增强，影像系统不再只是服务拍摄需求，而是开始具备对环境的分析能力。

他举了一个已经落地的例子：通过摄像头，系统可以实时识别环境结构，帮助视障人士理解周围空间，包括物体位置与相对关系。这种能力，本质上已经超出了传统影像的范畴。

“相机不再等你按快门，它在打开的一瞬间，就开始理解环境。”李卓的这句话，描述的是影像系统工作方式的改变——从拍摄后的处理，转向拍摄过程中的实时理解。设备开始结合环境信息，对用户行为做出响应，甚至参与到决策之中，从而使相机逐渐从工具转变为协作者。

这种变化，也在具体产品上得到体现。3月30日刚刚发布的vivo X300 Ultra，围绕影像能力进行了系统性升级。该机搭载行业最远的400mm增距镜，并配合专业兔笼等模块化设备，使手机在远距离拍摄与稳定性上进一步接近专业设备水平。

在视频能力方面，vivo X300 Ultra支持全焦段4K 120fps 10bit Log与杜比视界录制，并在防抖、对焦与高像素成像之间实现协同，形成更完整的动态影像体系。同时，其专业摄影机模式与视频调色能力，将拍摄与后期流程进一步整合，使移动设备逐步具备接近专业创作工具的工作方式。

这些能力的意义，并不仅仅在于“拍得更好”，而在于让影像系统能够捕捉更完整的环境信息。从空间结构到动态变化，再到声音采集（如“四麦收音系统”对环境声的处理），手机正在形成一个多维感知入口，为AI提供更丰富的现实数据。

李卓的判断是：“‘身临其境’会从形容词变成能力。”当图像不再只是静态画面，而成为可以被理解、被分析甚至被重建的信息载体时，影像也就成为AI进入现实世界的起点。

而在博鳌亚洲论坛这样的高密度信息场景中，这种能力也开始呈现出更现实的意义。对于媒体而言，报道不再只是记录发言与整理观点，还包括对现场环境、人物状态以及细节变化的捕捉。在这一过程中，手机逐渐从记录工具转变为生产工具。在今年博鳌论坛的现场，也出现了很多媒体使用vivo X300 Ultra及其增距镜、兔笼等拓展套件，跑新闻的场景。

以vivo X300 Ultra为代表的影像能力，使记者可以在复杂光线与远距离场景下完成稳定拍摄，并通过高规格视频与音频记录，直接获取可用于制作的内容素材。从会场发言到场外交流，从宏观场景到细节特写，一部手机即可覆盖大部分采集需求。

这种能力的提升，使移动设备在新闻生产流程中的角色进一步前移，也让“第一现场”的信息获取更加完整与高效。

如果说过去两年的AI，已经完成了对数字世界的重构，那么下一步，它必须进入现实。vivo给出的答案，已足够清晰，因为只有当世界被理解，AI才真正有机会改变它。

来源：https://www.163.com/dy/article/KPE661BH0519DDQ2.html

手机博鳌机器人看懂世界二合一平板电脑

上一篇远景发布全球首款12.5MWh储能系统，站场IRR提升4-8% 下一篇大疆与影石对簿公堂：专利权属纠纷案4月3日开庭！

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

AI下一步演进方向：迈向“看懂世界”的能力新探

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

AI下一步演进方向：迈向“看懂世界”的能力新探

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进