最近,Ta vus推出了一款全新的对话视频AI,不少用户认为,这种形式比阅读文档或文字聊天更有趣,甚至有人用“震撼”来形容它的实时响应速度。

许多体验者将其视为一种全新的人机交互方式,试用后纷纷表示“停不下来”。

网页端可免费试玩2分钟
得知这一消息后,我们第一时间访问了Ta vus的官方网站。
官网提供了2分钟的在线体验机会,让你亲身感受这款“史上最快对话视频”的魅力。
体验时,对话对象是Ta vus预设的一个虚拟角色——卡特。他的人物设定是Ta vus公司的一名AI视频研究员,风格幽默,乐于助人。
就是下面这位:

虽然是虚拟人物,但与他视频通话的感觉,就像和朋友聊天一样自然流畅。
官方建议,体验时最好选择安静的环境,并授权摄像头和麦克风。
卡特在聊天中透露,大家最喜欢和他聊的话题,除了了解Ta vus背后的AI技术,就是分享自己的日常生活与心路历程,或者讲笑话。说到兴头上,他当场讲了一个冷笑话,讲完后还自娱自乐地笑了两声。


实际体验了2分钟,总体感受如下:
首先,响应速度确实快得惊人,完全符合官方宣称的“一秒以内”。即便你在说话时突然打断,他也能立刻停下,认真倾听你的最新发言。
其次,虽然官方表示支持30多种语言,但无论你用中文还是英文提问,他都无法用中文回答。问“Can u speak Chinese”时,卡特会礼貌地拒绝:“我更愿意用英文对话呢!”

第三,Ta vus的AI确实具备“视觉”能力。体验过程中一度冷场,不知该问什么,只能傻笑。卡特立刻捕捉到这一情况,主动开口找话题。

第四,在试玩版本中,卡特的口型与说话内容几乎完全同步,几乎感觉不到延迟。难怪有网友体验后直呼“有点吓人”。

现在,注册后即可直接使用Ta vus的对话视频AI。正式版本中,可选的AI形象不止卡特一个,有男有女,身份设定从销售顾问到生活指导,丰富多样。聊天背景也可以根据用户喜好更换,不再局限于办公室场景。同时,还能手动输入对话上下文,个性化定制的程度相当高。


目前提供免费和收费两种形式,对应不同的生成权益。

基于自研模型打造
支撑这一切的背后,是Ta vus团队自研的Phoenix-2模型。
该模型融合了音频与文本驱动的3D模型及2D GANs,能够生成1-2分钟的逼真短视频。生成流程大致分为四步:TTS(文本转语音)——头部和肩部3D重建——提示词脚本驱动的面部动画——高保真渲染。

为了让AI形象更加逼真,团队在构建渲染pipeline时,创新性地结合了GAN与3D高斯泼溅。传统GAN受限于图像分辨率,而体积模型在时间一致性上有所不足。因此,Ta vus将两者结合——用3D模型作为“中间体”,实现了超过100 FPS的渲染效率,同时由于动态物体周围的物理感知约束,可控性和通用性也更强。

相比初代Phoenix模型,Phoenix-2最大的改进是替换掉了NeRF,转而利用3D高斯泼溅来学习驱动3D空间中的面部动态变形,并根据未知的音频渲染视图。从实际表现来看,3D高斯泼溅在数据、内存、计算复杂度、流程和渲染效率上,均明显优于NeRF。基于3D高斯泼溅的Phoenix-2,训练速度比初代快70%,渲染速度达到60+ FPS。

Ta vus表示,对话中加入了回合结束检测和可中断性,使互动过程更加真实。此外,由于面部信息非常敏感,团队还配备了安全检查、安全协议、自动内容审核和反幻觉检查,以保障信息安全。

值得一提的是,Phoenix系列模型还支撑了Ta vus的另一款产品——生成用户数字孪生形象的对话视频。只需提供2分钟素材、花费1美元(起),就能调用API生成视频内容。

官方提示,这是一个端到端的解决方案,具备以下能力:
- 使用API,构建安全、真实的数字孪生或AI Agent
- 定制LLM、对话的人物角色和背景
- 在嵌入式会议室中流式传输、转录并分享对话记录
- 通过生产级可扩展性处理高流量
“不<1s,就不是人了”
Ta vus是一家成立四年的AI视频初创公司,团队规模不大。成员大多来自Amazon、Descript、Google和Apple。公开资料显示,截至今年3月,公司已获得红杉、Scale VC、YC的A轮投资,融资额约1800万美元。

Ta vus的联合创始人兼CEO是Hassaan Raza,曾在谷歌和苹果工作过。

联合创始人兼COO在Producthunt上留言表示,这款对话视频AI花费了数千个小时的研究、工程和构建。至于为什么要追求1秒或更短的延迟?官方的答案很简单:为了尽可能模拟真实人类之间的视频对话——因为如果反应速度不低于1秒,那跟你聊天的就不是人了。
参考链接
[1]https://www.ta vus.io/careers
[2]https://x.com/heyta vus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-ta vus
