在最近的谷歌I/O开发者大会上,一项名为Rambler的AI语音听写新功能正式发布,并已深度集成到谷歌官方输入法Gboard中。这项由先进的Gemini模型驱动的技术,显著提升了语音转文字的准确率与流畅性,更在多语言混合输入领域取得了关键突破,有望彻底重塑用户在手机和平板上的日常输入方式。

相比传统的语音听写工具,Rambler展现了更强大的智能文本处理能力。它能自动识别并过滤口语中常见的“嗯”、“那个”等冗余填充词,使生成的文本更加精炼专业。尤为突出的是,它能精准理解并处理用户在说话过程中的实时修正指令。例如,当用户说“会议定在周四上午十点……不对,是十一点”时,系统能准确捕捉最终意图,输出正确时间为“十一点”。
核心亮点:无缝混合语言识别
本次升级最引人注目的特性,是其基于Gemini大模型实现的“代码切换”能力。这意味着用户可以在同一句话甚至同一段对话中,自由穿插使用多种语言进行口述,而Rambler能够在完整理解上下文语境的前提下,持续进行高精度识别与转写。这项多语言混合识别功能,对于跨国工作者、语言学习者以及多语言家庭用户来说,实用价值巨大,能极大提升沟通与创作效率。
隐私保护与设备适配
针对用户普遍关注的隐私与数据安全问题,谷歌明确强调,该功能的设计遵循隐私优先原则,不会存储任何原始语音录音数据,所有音频仅用于实时转写处理。其技术架构采用了设备端与云端协同计算的模式,在保证识别性能的同时,致力于提供“安全且隐私友好”的体验。在发布计划上,该功能将于今年夏季率先在三星Galaxy系列和谷歌Pixel系列手机上推出,随后将逐步推广至更多品牌的Android设备。
