游乐游手机版
首页/科技数码/文章详情

DeepMind创新CoF技术:视频模型实现思维链推理

时间:2025-12-10 15:29
CoT思维链的下一步是什么? DeepMind提出帧链CoF(chain-of-frames)。 逐帧视频生成类似于语言模型中的链式思维。就像链式思维(CoT)使语言模型能够用符号进行推理

CoT思维链的革新方向:帧链CoF理念横空出世

DeepMind最新研究成果Veo 3论文揭示了一个革命性概念:类比语言模型中的思维链(CoT),视频生成领域如今诞生了"帧链"(CoF)这一创新框架。这种基于时间和空间的推理方式,为视频模型赋予了类似人类的视觉理解能力。

\

研究团队经过大量实验验证发现,以Veo 3为代表的视频模型正在突破传统边界。这些模型展现出令人惊叹的零样本学习能力,可以从基本的视觉感知到高级的认知推理,完成全链条的视觉任务处理。

\

DeepMind首创的CoF概念解析

这一突破性理念源于研究团队的关键思考:视频生成模型是否可能像ChatGPT这类大语言模型那样,无需专门训练就能胜任各类视觉任务,最终发展成为"通用视觉基础模型"?

当前机器视觉领域仍停留在"专用工具时代"——目标检测、图像分割等任务都需要特定模型完成。但随着视频生成模型采用与LLM相似的训练范式,通用视觉的实现正成为可能。

\

研究团队设计了巧妙的验证方法:仅提供初始图像和文字指令,让模型自主生成完整视频序列。这种方法完全不依赖特定任务训练,纯粹考验模型的零样本学习能力。

实验结果令人振奋:Veo 3视频模型展现出四大递进式能力:

1. 基础感知能力 —— 无论是图像增强还是目标识别,都能轻松应对

\

\

2. 视觉建模能力 —— 理解物理规律和抽象关系

\

\

3. 场景操控能力 —— 主动修改视觉元素

\

\

4. 时空推理能力 —— 实现CoF框架下的复杂视觉推理

\

通过18384个视频样本的分析,研究团队得出三项重要结论:

1. Veo 3可以处理大量未经专门训练的任务

2. 展现出类似CoF的视觉推理雏形

3. 模型能力正在快速发展

通用模型的崛起前景

DeepMind预言,视频模型领域即将迎来"通才取代专才"的范式变革。虽然通用模型目前在特定任务上仍落后于专门优化的算法,但这一差距正快速缩小。

类比LLM的发展轨迹,随着模型架构持续优化、训练数据不断扩充,视频模型的通用能力有望实现质的飞跃。Veo 3相较前代产品的显著进步已经验证了这一趋势。

论文地址:https://papers-pdfs.assets.alphaxiv.org/2509.20328v1.pdf

参考文献:

[1]https://x.com/AndrewCurran_/status/1971997723261075905

[2]https://simonwillison.net/2025/Sep/27/video-models-are-zero-shot-learners-and-reasoners/

来源:https://36kr.com/p/3485840321797256
上一篇骁龙8 Elite Gen5登场,iPhone16价格暴跌至百元档 下一篇暗喻幻想ReFantazio新预告片公布,夏日游戏节揭晓
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宝马X5大换代:激进设计与配置升级,创新还是冒险?
科技数码 · 2026-07-03

宝马X5大换代:激进设计与配置升级,创新还是冒险?

宝马X5,这个一手开创了豪华运动SUV细分市场的名字,即将迎来它诞生以来最具碘伏性的一次革新。代号G65的第五代车型(也就是2027款),这一次不只是中期改款那种小打小闹,而是在设计、动力、智能这三个维度上,全部推倒重来。这次换代,看得出宝马是铁了心要向新能源时代全面转型。 先说说最碘伏性的变化——

Rokid AR眼镜搭载恒玄BES2810 6nm芯片支持全新语音交互
科技数码 · 2026-07-03

Rokid AR眼镜搭载恒玄BES2810 6nm芯片支持全新语音交互

恒玄科技近日正式宣布了一则重要消息:Rokid AR 眼镜将搭载恒玄 BES2810 芯片。 采用 6nm 制程工艺,实现超低功耗运行 集成 NPU 与 HiFi 5s 音频处理器,算力与处理效率显著提升 配备全新语音交互与灵活 EQ 调音功能,支持用户自定义专属声场 事实上,早在 6 月 26 日

德施曼龙霆A3F 3D人脸识别智能猫眼门锁389元超值新低
科技数码 · 2026-07-03

德施曼龙霆A3F 3D人脸识别智能猫眼门锁389元超值新低

近期智能门锁市场掀起一波促销热潮,德施曼旗下的龙霆 A3F 成为备受关注的型号之一。这款产品日常标价 799 元,同时支持 3D 人脸识别与智能猫眼联动功能,在该价位段能拿下带人脸识别和猫眼联动的配置,性价比表现确实不错。目前实际到手价仅需 389 元——下单后联系客服享受 8 折返现,再叠加晒单返

Cloudflare强化爬虫管理默认屏蔽AI与训练爬虫访问广告
科技数码 · 2026-07-03

Cloudflare强化爬虫管理默认屏蔽AI与训练爬虫访问广告

Cloudflare细化爬虫管理,依行为贴标签。自2026年9月15日起默认禁止AI训练爬虫访问含广告网页,混合型爬虫任一行为被禁即全禁。还将推出新版归因仪表板、页面变动监控及按使用计价的抓取付费模式。

三星Galaxy Jump5手机KT独家发售
科技数码 · 2026-07-03

三星Galaxy Jump5手机KT独家发售

韩国电信KT与三星联合推出独占机型GalaxyJump5,基于全球版三星A275G打造,配备6 7英寸FHD+SuperAMOLED显示屏幕、后置5000万像素三摄像头、内置5000mAh大容量电池,支持IP64防水功能,提供6次大版本系统升级服务,搭载高通骁龙6Gen3处理器等特性。