游乐游手机版
首页/AI教程/文章详情

谷歌Phenaki文字转视频AI模型功能详解与应用

时间:2026-05-22 12:45
上个月,Google在文本生成视频领域发布了两个重要模型:Imagen与Phenaki。两者各具特色,Imagen侧重于对语言的深度理解,能够生成画质接近真实照片的短视频;而Phenaki则更专注于长叙事,能够依据一系列文字提示,合成数分钟长、包含多场景转换的连贯影片。简单来说,一个强在“单帧画质”

上个月,Google在文本生成视频领域发布了两个重要模型:Imagen与Phenaki。两者各具特色,Imagen侧重于对语言的深度理解,能够生成画质接近真实照片的短视频;而Phenaki则更专注于长叙事,能够依据一系列文字提示,合成数分钟长、包含多场景转换的连贯影片。简单来说,一个强在“单帧画质”,一个优在“长篇叙事”。

目前,Imagen已通过Google的“AI Test Kitchen”应用,面向美国、英国、加拿大、澳大利亚、新西兰及肯尼亚的英语用户开放体验。AI Test Kitchen是Google于今年8月推出的实验性平台,旨在公开测试其前沿人工智能技术,首批入驻的模型就包括对话系统LaMDA。

那么,能够生成长视频的Phenaki模型,究竟有哪些技术突破?从研究角度看,文本生成视频一直面临几大挑战:计算成本高昂、高质量的文本-视频配对数据稀缺,以及视频时长不固定带来的建模困难。

为应对这些难题,研究团队引入了一种基于因果模型的全新视频表示学习方法。其核心思想是将视频压缩为一组离散的、紧凑的表征标记。关键在于,所采用的分词器配备了因果注意力机制,从而能够灵活适应可变长度的视频输入。

具体流程分为两步:首先,通过一个以预计算文本标记为条件的双向掩码变换器,生成对应的视频标记序列;随后,将这些视频标记进行解码重建,最终输出可视的视频内容。这个过程可以类比为一个高度智能的“视频压缩与解压缩”系统,其编码规则完全通过海量数据学习获得。

更值得关注的是团队应对数据短缺的策略。他们采用了联合训练方法,同步利用海量的图像-文本对数据以及相对较少的视频-文本样本。这种设计使得模型能够实现知识迁移,其生成能力甚至可以泛化至训练数据未覆盖的内容领域,有效缓解了高质量视频数据不足的瓶颈。

与以往技术相比,Phenaki的显著进步在于,它首次实现了在开放领域内,根据一系列随时间推进的文本提示(可视为情节要点或故事大纲)生成任意长度的视频。这不仅意味着生成长视频,更意味着生成逻辑连贯、场景流转的叙事性影片。据了解,这是首篇专门研究基于时序提示生成视频的学术论文。

从实验结果看,Phenaki所提出的视频编码器-解码器架构,在时空质量(即画面在时间与空间维度上的连贯性与清晰度)以及生成效率(单位视频所需的标记数)上,均优于现有基于逐帧生成的基线模型。这表明它在保证输出质量的同时,可能具备更高的计算效能。

Phenaki-Phenaki是Google上個月公布的兩個文字轉影片的AI模型

总而言之,Phenaki将AI视频生成从“制作短视频片段”推进到了“执导动态故事片”的新阶段。它的出现,为AI在未来影视预演、动态内容创作、个性化叙事生成等领域的应用开辟了更广阔的空间。当然,该技术目前仍处于研究阶段,走向实际应用尚需时日,但它无疑为我们指明了一个充满潜力的发展方向。

来源:https://openi.cn/sites/835.html
上一篇阿里巴巴达摩院是什么它是阿里巴巴的全球科研机构 下一篇Endel 专注放松助眠 基于神经科学的个性化音景
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
SVD奇异值分解的三步:双对角化、Givens收敛与排序
AI教程 · 2026-07-01

SVD奇异值分解的三步:双对角化、Givens收敛与排序

写在前面:万能的 SVD,缺席的算法SVD 是线性代数的瑞士军刀。你做主成分分析(PCA),底层是 SVD;你做推荐系统的协同过滤,底层是 SVD;你算伪逆、解最小二乘,底层是 SVD;你做图像压缩、信号去噪、潜在语义分析(LSA),底层还是 SVD。统计软件里凡是涉及 "降维 " "求秩 " "解超定方程组

大模型位置编码深度解析:模型如何理解顺序?
AI教程 · 2026-07-01

大模型位置编码深度解析:模型如何理解顺序?

注意力机制的“位置盲区” 上一章我们探讨了注意力机制如何借助 QKV(Query-Key-Value)矩阵计算 Token 之间的相关性。然而,其中隐藏着一个关键的问题: 注意力机制天生就像个“路痴”——它根本无法感知 Token 的前后顺序! 问题演示 我们来观察这两个句子: "猫 吃 鱼 " "鱼

深度学习从零理解Transformer模型原理与架构详解
AI教程 · 2026-07-01

深度学习从零理解Transformer模型原理与架构详解

从零理解 Transformer:注意力机制全解析 Transformer 架构彻底改写了自然语言处理的技术版图——从 BERT 到 GPT-4,从 T5 到 LLaMA,几乎所有现代大语言模型都长在 Transformer 的根上。但说实话,很多开发者的理解还停在“调 API”层面。本文从直觉出发

Rust构建AI自演化主板:18个异构器官长出C++骨骼
AI教程 · 2026-07-01

Rust构建AI自演化主板:18个异构器官长出C++骨骼

用 Rust 手搓 AI 自演化主板:当 18 个异构器官长出 C++ 骨骼第一章 物理层:让 Rust C++ CUDA 共享同一根血管在多语言实时系统开发中,最棘手的难题莫过于数据拷贝。一个 MarketTick 信号若从 Rust 传递至 C++ 算子,再送入 CUDA 核函数,最后返

大模型可观测性升温:响应时间、Token与调用链成AI系统新指标
AI教程 · 2026-07-01

大模型可观测性升温:响应时间、Token与调用链成AI系统新指标

2026年,大模型应用正迈入全新阶段:核心关注点从“功能是否可用”转向“运行是否稳定”。 回顾过往,大家对大模型的注意力基本集中在模型效果本身——回答准确度如何、生成速度快慢、能否对接知识库、是否支持多轮对话。这些固然是基础能力,但当模型真正嵌入客服、办公、研发、运维、数据分析等核心业务场景后,新的