北京时间今天晚间,谷歌正式发布了全新的实时语音互译音频模型——Gemini 3.5 Live Translate。如果说之前的翻译工具还停留在“你说完、它再翻”的阶段,那么这次的产品,可以说真正迈出了实时翻译的关键一步,标志着谷歌在实时语音翻译技术上的重大突破。
简单来说,Gemini 3.5 Live Translate 能够自动识别并翻译70多种语言,生成流畅、自然的翻译语音,而且——这可能是它最大的亮点——它会保留说话者原本的语调、语速和音高。也就是说,你听到的不再是冷冰冰的机器合成音,而是一个尽量贴近原声、富有情感的“口译版”。

那么,它是怎么做到“实时”的?传统轮流式系统要等对方说完一整句话才开始翻译,这样容易产生尴尬的停顿。Gemini 3.5 Live Translate 则采用连续生成语音的方式——一边等待更多上下文来提升翻译质量,一边即时输出翻译以跟上说话者的节奏。整个对话过程中,翻译音频始终流畅,通常只比原声慢几秒,几乎感觉不到延迟,实现了真正的无感实时翻译体验。
从今天开始,Gemini 3.5 Live Translate 会陆续登陆谷歌的多个产品:开发者可以通过 Gemini Live API 和 Google AI Studio 使用公开预览版;企业客户从本月起可以在 Google Meet 中使用私有预览版;普通用户则能通过 Android 和 iOS 版谷歌翻译直接体验这一革命性的实时翻译功能。
值得一提的是,这个模型在语音流式传输过程中同步处理内容,自动处理多语言输入,无需手动切换设置。它的抗噪能力也经过专门优化,能够适应嘈杂、复杂甚至不可预测的环境。开发者可以把它集成到多语言通话、会议、在线课程、直播甚至广播场景中,提供真正的实时口译体验,大幅提升跨语言沟通效率。
对于普通用户来说,Gemini 3.5 Live Translate 将登陆全球 Android 和 iOS 版谷歌翻译应用。使用实时翻译功能时,只需连接任意耳机,就能在70多种语言中获得更流畅的翻译,而且译文语音会更接近说话者的语气,让跨国交流更加自然。
另外,Android 用户还将获得一个基于 3.5 Live Translate 的全新“聆听模式”。你可以像接电话一样把手机贴到耳边,直接通过听筒收听翻译音频。如果没有带耳机,又不希望旁边的人听到翻译内容,这个模式就非常实用,充分保护了用户的隐私需求。
