首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌Gemini 3.1发布:毫秒级对话开启实时Agent时代

谷歌Gemini 3.1发布:毫秒级对话开启实时Agent时代

热心网友
24
转载
2026-03-28


新智元报道

编辑:元宇

【新智元导读】语音AI最烦人的一句话,可能终于要被谷歌干掉了。Gemini 3.1 Flash Live 正在逼近「像人与人说话那样响应」的体验:不仅更快、更自然,连在交通声、电视声这样的真实噪音里,也更能听清你在说什么。

刚刚,谷歌把语音AI最烦人的一句话狠狠干掉了:「请再说一次。」


这次谷歌新发布的 Gemini 3.1 Flash Live,直接瞄准了现实生活中最乱、最吵的那些场景。


https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

更重要的是,它不只是「听」,它还能看,还能调用工具,还能守住设定边界。

谷歌称,这是在延迟、可靠性和更自然的对话表现上的一次跃迁式提升。

你说话的速度

就是它思考的速度

谷歌最新博客中提到,实时交互里,每一毫秒的延迟,都会破坏用户期待的自然对话流。

因此,Gemini 3.1 Flash Live的一个目标,就是把语音Agent推进到「接近对话本身速度的响应」。


因为现实体验中,语音AI最劝退人的不是答错,而是那种你已经张嘴说完,它还在后台转圈带来的「断片」感。

谷歌这次改进的方向,不是某一个点,而是语音Agent最容易掉链子的整条实时交互系统:

一边增强对音高、语速、重音和意图的识别能力;一边强化复杂系统指令遵循,让Agent即便在对话突然转向时,也能守住既定边界、不轻易跑偏。

更关键的是,谷歌还专门强调了它在真实噪音环境中的任务完成率提升:

面对交通声、电视声等背景干扰,模型能更有效地区分有效语音与环境噪声,在实时对话中更稳定地触发工具、返回信息。

并且,相比2.5 Flash Native Audio,新模型在这些方面都有明确提升。


AI终于走出实验室

想象在一个嘈杂的咖啡厅:

隔壁两个人正在吵架,你一边盯着明天的航班,一边对手机说:帮我改签到上午。

结果你说3遍,它仍是回答你3次:「抱歉,请再说一次。」

这样的情景是不是很熟悉?

语音AI这些年最大的问题,并不是它「能不能聊天」,而是它能不能在你需要它的时候和它聊天。

这些需要和它聊天的场景,往往是在地铁站、车上、开着电视的客厅、菜市场这些噪声环境,所以,谷歌这次把「噪声」放到了非常核心的位置。


新模型显著提升了在嘈杂、真实环境中的任务完成率,能更准确地区分有效语音和交通声、电视声等环境噪音。

这些改进,让语音AI能够更适应真实场景的需要。

设计师、老人、玩家

三个人的AI已经不一样了

谷歌最新列举了Gemini 3.1 Flash Live在设计、陪伴和游戏三个代表性的案例。


设计师

语音第一次变成创作工具

谷歌最新称,借助Gemini Live API,用户现在可以直接用语音做创意设计,AI不仅能听,还能看到你的画布和当前选中的界面,然后给出设计点评、生成变体。

小功能背后,设计工作流也在改变。

以前你跟设计工具的关系,是手点。后来是手点+文字框。现在开始变成:你一边看画布,一边开口,AI一边理解、一边改。

这意味着设计师不再只是「操作软件」,而是在「调度一个实时搭档」。

你不用停下来把脑子里的感觉翻译成一大段prompt,而可以直接说:这个卡片太满了、留白拉开、主按钮再有互动性一点、这个版本偏保守,给我三个更大胆的……

这正是语音在创作场景里的真正价值,它将大大缩短灵感到执行之间的距离。

在Stitch这种场景里,语音已经不是输入法了,而成了创作指挥棒。


老人

陪伴终于不是假聊天了

第二个案例,是Hey Ato。

这是一个面向老年人的AI陪伴设备。

谷歌给出的重点是,Ato利用Gemini 3.1 Flash Live的多种语言支持能力,把日常对话变成真正的联系。

「AI陪伴」过去最大的问题不是功能少,而是太假、太模板化,而老年场景,对「实时感」「打断恢复」「语言自然度」的要求,远比年轻人想象得更高。

对很多老人来说,他们不会有耐心和能力去调参数,也不会切来切去看屏幕。

Gemini 3.1 Flash Live的多语言、低延迟和更自然对话,在这样的场景中成了一个入门级的能力。

当AI设备真的能用父母更熟悉的母语,稳定地接住日常闲聊时,它才能真正让「人机交互」切入「陪伴关系」这一高挑战场景。


玩家

游戏里的NPC终于不像木头人了

第三个场景最有戏剧感。

它来自Weekend团队的RPG游戏Wit’s End。

谷歌最新说,他们把Gemini 3.1 Flash Live的「强角色塑造能力」和「类人的表达方式」结合起来,给Game Master加上了独特的戏剧风格。

游戏也是实时语音AI最危险、也最容易炸场的场景,因为玩家对「卡顿」和「出戏」的容忍度极低,这也是为什么游戏行业会特别敏感地拥抱这类能力。

他们不需要一个「会回答问题的模型」,而是需要一个「能演、能接、能控场」的实时角色。

从Stitch到Ato,再到Wit’s End,谷歌Gemini 3.1 Flash Live其实都是在印证这样一个变化:

语音+视觉Agent,正在同时渗透进创造、陪伴、娱乐这三种最贴近个体生活的场景。

实时AI竞赛的战火

正在烧向App

对于大厂来说,最值得警惕的,往往不是它们某个单点功能有多强,而在于它什么时候开始变成基础能力。

Gemini 3.1 Flash Live这次最让竞争对手感到危险的,也正是在这里。

自3月26日起,Gemini 3.1 Flash Live已通过Gemini API和Google AI Studio提供,当前为预览版,开发者可通过Live API集成。

最新文档中特别强调了tool use、session management、ephemeral tokens等关键能力,这些都直接对应实时Agent落地时最核心的工程问题。


https://ai.google.dev/gemini-api/docs/live-api/get-started-sdk

按照最新文档,Gemini Live API基于有状态WebSocket连接,支持连续的音频、图片和文本流输入,并以低延迟方式返回语音结果。

输入侧可接收16kHz、16-bit PCM音频,输出侧则返回24kHz、16-bit PCM音频。

换句话说,它不是传统那种「说一句、等一次结果」的调用方式,而更像一个持续在线的实时交互回路。

文档还明确列出了多语言支持、用户随时打断、函数调用与Google Search等工具接入、输入输出转写、主动音频控制等能力。

对开发者来说,这些能力组合起来,意味着它已经不再只是一个会语音对话的模型,而是一个可直接接入应用工作流的实时Agent接口。

Google AI for Developers的版本说明也确认了模型名为gemini-3.1-flash-live-preview。

由此看,这次更新不再只是谷歌自家产品里的一个新功能,而是一个可被复制、可被集成、可被规模化嵌入的能力层。

不仅如此,谷歌还在博客中专门提到了两类合作伙伴能力:WebRTC扩展,以及全球边缘路由。


这说明谷歌考虑的已经不只是模型演示效果,而是更接近真实生产部署的要求。

视频流、电话场景、跨区域低延迟分发,这些都不是「实验室demo」会提前考虑的东西。

这次升级,最新不只开了API,还给了Live API文档、示例,以及GenAI SDK代码入口。

也就是说,下一波实时AI应用的爆发,不一定从大厂内部开始,很可能是从一批动作快的开发者和创业团队开始。

很多人还在把「实时语音助手」理解成一个独立产品,但未来真正可能发生的,并不是你去下载一个新的AI App,而是你原来每天就在用的App,某天突然多了一个按钮。

它可以与你实时交互,会看、会听、能做事,那时整个交互范式可能已经开始变化。

语音AI真正的敌人

也许不是技术

谷歌最新这次推出的是预览版(preview),即Gemini 3.1 Flash Live现在仍处在预览阶段。

最新文档已经提示了两种典型接入模式:要么由后端中转,与Live API进行服务器到服务器通信;要么由前端直接建立WebSocket连接,但在生产环境里推荐改用临时Token,而不是直接暴露标准API Key。

当然,这套能力距离「无摩擦落地」还有一段距离。

因为,实时语音Agent并不只是模型问题,它还叠加了持续连接、音视频流传输、状态保持和安全控制等工程约束。

也就是说,Gemini 3.1 Flash Live虽然已经把「实时多模态交互」这层能力打开了,但要真正把它打磨成稳定产品,还需要回答以下现实性的问题:

成本会不会压垮高频使用?长时对话稳定性到底怎么样?多人环境下的说话权分离能做到多稳?隐私、误触发、持续监听的边界怎么画……

这些问题解决,实时语音Agent才有望真正成为「下一代入口」。

但至少这次Gemini 3.1 Flash Live发布让我们看到:语音AI终于不那么像一个总在掉链子的笨助手了。

过去,人类用API调AI。接下来,AI会越来越频繁地替你调用世界。

一旦响应速度追平人类开口的节奏,很多今天看起来还不成立的场景,明天就会突然成立。

比如,它能替你打电话、改签、盯屏幕、陪父母聊天、打游戏……我们日常的耳机、手机、眼镜也可能改变,我们经常使用的App也可能被重新定义。

那时,我们与机器沟通的习惯方式,可能真的是要改变了。

参考资料:

https://blog.google/innovation-and-ai/technology/developers-tools/build-with-gemini-3-1-flash-live/

https://x.com/OfficialLoganK/status/2037187750005240307

来源:https://www.163.com/dy/article/KP3T0B3F0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

卡尔达诺ADA价格预测:未来数周或迎150%强势反弹
web3.0
卡尔达诺ADA价格预测:未来数周或迎150%强势反弹

卡尔达诺(Cardano)分析师预测:未来数周或将迎来150%的“强势牛市反弹” 关键要点: ADA价格形成看涨旗形并完成突破,预示未来可能实现100%至150%的上涨。超过150亿枚ADA在过去一年中未发生转移,反映出长期持有者信心达到历史高点。 最近的市场动态,透露出一些相当积极的信号。一方面,

热心网友
05.17
谷歌TPU 8i如何以差异化策略挑战英伟达市场地位
AI
谷歌TPU 8i如何以差异化策略挑战英伟达市场地位

在拉斯维加斯举行的Google Cloud Next大会上,谷歌高级副总裁Amin Vahdat揭晓了其AI芯片战略的重大演进:首次明确区分了训练与推理两大核心任务,并同步推出了专为各自优化的TPU 8t与TPU 8i芯片。这标志着谷歌TPU产品线进入了精细化分工的新纪元。 “随着AI智能体(Age

热心网友
05.17
疑似谷歌Aluminium OS专属壁纸曝光,桌面平台限定
科技数码
疑似谷歌Aluminium OS专属壁纸曝光,桌面平台限定

关于谷歌下一代桌面操作系统“Aluminium OS”的传闻,近日获得了新的有力证据。据外媒Android Authority报道,其在最新系统文件中发现了四张被标记为“桌面专属”的专属壁纸,这些设计元素明确指向为大屏幕设备优化,进一步证实了谷歌桌面系统的开发进展。 这四款壁纸的命名富有深意,分别为

热心网友
05.17
谷歌Chrome自动安装AI模型占用硬盘空间如何清理
AI
谷歌Chrome自动安装AI模型占用硬盘空间如何清理

最近科技圈里有个事儿,闹得挺大。5月4日,一位在隐私领域颇有声望的专家——人称“隐私先生”的瑞典计算机科学家Alexander Hanff——发布了一份报告,直指谷歌Chrome浏览器存在一个相当出格的行为:在用户完全不知情、未同意的情况下,它竟然向符合条件的设备静默安装了一个体积约4GB的Gemi

热心网友
05.16
安卓旗舰为何重回8GB内存时代谷歌带头开倒车了吗
科技数码
安卓旗舰为何重回8GB内存时代谷歌带头开倒车了吗

5月11日,关于谷歌下一代旗舰手机Pixel 11系列的一则爆料引发热议:其内存配置可能不增反降。具体来看,标准版Pixel 11或许会从上一代的12GB起步回退至8GB;而定位更高的Pixel 11 Pro、Pro XL以及Pro Fold折叠屏机型,也可能不再延续Pro系列16GB起步的传统,转

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

数字货币基本面分析指南:评估价值与潜力的关键指标
web3.0
数字货币基本面分析指南:评估价值与潜力的关键指标

分析数字货币基本面需从项目愿景、技术架构、经济模型及团队背景等多维度入手。核心在于评估其解决实际问题的能力、技术实现的可靠性以及代币经济的可持续性。这要求投资者深入研究白皮书、代码进展、社区生态和治理机制,而非仅关注价格波动。基本面分析是理解项目长期价值、识别潜在风险的关键方法。

热心网友
05.17
虚拟币基本面分析指南:如何评估加密货币价值
web3.0
虚拟币基本面分析指南:如何评估加密货币价值

虚拟币基本面分析需关注项目技术架构、代币经济模型、团队背景与社区生态。技术层面评估共识机制、可扩展性与安全性;经济模型分析代币分配、通胀机制与实际效用;团队与社区则考察开发能力、治理透明度及用户活跃度。综合这些维度,可更客观判断项目的长期价值与风险。

热心网友
05.17
什么是代币?代币在区块链中的核心作用与用途详解
web3.0
什么是代币?代币在区块链中的核心作用与用途详解

Tokens:数字世界的“多功能凭证” 简单来说,Tokens是一种基于现有区块链技术发行的数字凭证。你可以把它想象成数字世界里的“积分”或者“股票”,它代表着某种权利、价值或功能。 2025年虚拟货币主流交易所: 币安: 欧易: 火币: Tokens到底是什么? 从技术层面看,Tokens并非独立

热心网友
05.17
加密货币投资指南:基本面分析入门与实战技巧
web3.0
加密货币投资指南:基本面分析入门与实战技巧

加密货币基本面分析着眼于评估数字资产的长期价值,而非短期价格波动。它主要考察项目愿景、技术架构、代币经济模型、团队背景及社区生态等核心要素。通过分析这些内在因素,投资者可以更理性地判断一个项目是否具备可持续的竞争力与发展潜力,从而做出更明智的投资决策。

热心网友
05.17
Anthropic封杀Claude用户事件解读 公司数据安全如何保障
AI
Anthropic封杀Claude用户事件解读 公司数据安全如何保障

周一清晨,一家拥有110名员工的农业科技公司,全体员工突然发现自己的Claude账户无法登录。这并非个别现象,而是全员遭遇。从Slack运维频道出现第一张截图开始,短短十分钟内,整个公司都在询问同一个问题:我的Claude出什么问题了? 答案很快揭晓——问题不在用户,而是Anthropic对所有账号

热心网友
05.17