谷歌Phenaki文字转视频AI模型功能详解与应用

时间：2026-05-22 12:45

上个月，Google在文本生成视频领域发布了两个重要模型：Imagen与Phenaki。两者各具特色，Imagen侧重于对语言的深度理解，能够生成画质接近真实照片的短视频；而Phenaki则更专注于长叙事，能够依据一系列文字提示，合成数分钟长、包含多场景转换的连贯影片。简单来说，一个强在“单帧画质”

目前，Imagen已通过Google的“AI Test Kitchen”应用，面向美国、英国、加拿大、澳大利亚、新西兰及肯尼亚的英语用户开放体验。AI Test Kitchen是Google于今年8月推出的实验性平台，旨在公开测试其前沿人工智能技术，首批入驻的模型就包括对话系统LaMDA。

那么，能够生成长视频的Phenaki模型，究竟有哪些技术突破？从研究角度看，文本生成视频一直面临几大挑战：计算成本高昂、高质量的文本-视频配对数据稀缺，以及视频时长不固定带来的建模困难。

为应对这些难题，研究团队引入了一种基于因果模型的全新视频表示学习方法。其核心思想是将视频压缩为一组离散的、紧凑的表征标记。关键在于，所采用的分词器配备了因果注意力机制，从而能够灵活适应可变长度的视频输入。

具体流程分为两步：首先，通过一个以预计算文本标记为条件的双向掩码变换器，生成对应的视频标记序列；随后，将这些视频标记进行解码重建，最终输出可视的视频内容。这个过程可以类比为一个高度智能的“视频压缩与解压缩”系统，其编码规则完全通过海量数据学习获得。

更值得关注的是团队应对数据短缺的策略。他们采用了联合训练方法，同步利用海量的图像-文本对数据以及相对较少的视频-文本样本。这种设计使得模型能够实现知识迁移，其生成能力甚至可以泛化至训练数据未覆盖的内容领域，有效缓解了高质量视频数据不足的瓶颈。

与以往技术相比，Phenaki的显著进步在于，它首次实现了在开放领域内，根据一系列随时间推进的文本提示（可视为情节要点或故事大纲）生成任意长度的视频。这不仅意味着生成长视频，更意味着生成逻辑连贯、场景流转的叙事性影片。据了解，这是首篇专门研究基于时序提示生成视频的学术论文。

从实验结果看，Phenaki所提出的视频编码器-解码器架构，在时空质量（即画面在时间与空间维度上的连贯性与清晰度）以及生成效率（单位视频所需的标记数）上，均优于现有基于逐帧生成的基线模型。这表明它在保证输出质量的同时，可能具备更高的计算效能。

Phenaki-Phenaki是Google上個月公布的兩個文字轉影片的AI模型

总而言之，Phenaki将AI视频生成从“制作短视频片段”推进到了“执导动态故事片”的新阶段。它的出现，为AI在未来影视预演、动态内容创作、个性化叙事生成等领域的应用开辟了更广阔的空间。当然，该技术目前仍处于研究阶段，走向实际应用尚需时日，但它无疑为我们指明了一个充满潜力的发展方向。

来源：https://openi.cn/sites/835.html

Phenaki

上一篇阿里巴巴达摩院是什么它是阿里巴巴的全球科研机构 下一篇Endel 专注放松助眠基于神经科学的个性化音景

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

SVD奇异值分解的三步：双对角化、Givens收敛与排序

写在前面：万能的 SVD，缺席的算法SVD 是线性代数的瑞士军刀。你做主成分分析（PCA），底层是 SVD；你做推荐系统的协同过滤，底层是 SVD；你算伪逆、解最小二乘，底层是 SVD；你做图像压缩、信号去噪、潜在语义分析（LSA），底层还是 SVD。统计软件里凡是涉及 "降维 " "求秩 " "解超定方程组

AI教程 · 2026-07-01

大模型位置编码深度解析：模型如何理解顺序？

注意力机制的“位置盲区” 上一章我们探讨了注意力机制如何借助 QKV（Query-Key-Value）矩阵计算 Token 之间的相关性。然而，其中隐藏着一个关键的问题：注意力机制天生就像个“路痴”——它根本无法感知 Token 的前后顺序！问题演示我们来观察这两个句子： "猫吃鱼 " "鱼

AI教程 · 2026-07-01

深度学习从零理解Transformer模型原理与架构详解

从零理解 Transformer：注意力机制全解析 Transformer 架构彻底改写了自然语言处理的技术版图——从 BERT 到 GPT-4，从 T5 到 LLaMA，几乎所有现代大语言模型都长在 Transformer 的根上。但说实话，很多开发者的理解还停在“调 API”层面。本文从直觉出发

AI教程 · 2026-07-01

Rust构建AI自演化主板：18个异构器官长出C++骨骼

用 Rust 手搓 AI 自演化主板：当 18 个异构器官长出 C++ 骨骼第一章物理层：让 Rust C++ CUDA 共享同一根血管在多语言实时系统开发中，最棘手的难题莫过于数据拷贝。一个 MarketTick 信号若从 Rust 传递至 C++ 算子，再送入 CUDA 核函数，最后返

AI教程 · 2026-07-01

大模型可观测性升温：响应时间、Token与调用链成AI系统新指标

2026年，大模型应用正迈入全新阶段：核心关注点从“功能是否可用”转向“运行是否稳定”。回顾过往，大家对大模型的注意力基本集中在模型效果本身——回答准确度如何、生成速度快慢、能否对接知识库、是否支持多轮对话。这些固然是基础能力，但当模型真正嵌入客服、办公、研发、运维、数据分析等核心业务场景后，新的