移动互联网技术的迅猛发展,让手机早已超越了单纯的通讯工具,成为日常生活的中枢——社交、娱乐、办公,几乎包罗万象。随着人工智能浪潮的持续升温,用户对手机的智能期待也与日俱增。作为全球领先的智能终端制造商,OPPO正致力于将前沿AI技术与智能手机深度融合,打造新一代人工智能手机。这一目标的实现,离不开与微软等战略伙伴的紧密协作。
寻找合作伙伴 攻克技术难题
行业领先的AI服务提供商OPPO与微软携手,先后推出了两项备受用户欢迎的功能:
◉ OPPO小布连麦:采用微软全新TTS技术,语音更加自然逼真,即开即用,让语音交互更具真实感与沉浸式体验。
◉ Phone Link:实现移动设备与PC的无线连接,无需额外工具即可跨设备无缝协同,将PC的强大能力共享给手机,带来更便捷、更智能的跨终端体验。
在海外市场推出的新产品中,OPPO与微软在ASR与TTS技术上的合作,进一步为两项创新功能带来了更出色的体验:
◉ AI录音摘要:快速将录音转换成文本并生成摘要,帮助用户迅速掌握核心内容,随时分享。
◉ AI文章朗读:让手机用自然语音朗读文本,解放双手与双眼,轻松完成信息交互。
要实现这些功能,OPPO必须攻克一系列技术瓶颈:转录的准确性、延迟控制、多语言支持以及安全合规。其中,转录准确性最为关键——无论是日常使用还是移动办公,用户不仅需要精准的语音转文字,还期望获得简洁清晰的摘要。延迟必须极低,没有人愿意等待。文本朗读的语音要接近真人,而非机械的合成音。隐私保护与安全合规同样是硬性要求——AI手机既要功能细腻,也要守护用户数据安全。
面对这些挑战,OPPO需要选择一家技术实力雄厚、具备前瞻视野且能长期稳定合作的AI伙伴,共同将最新技术落地到智能手机上。
在语音转文本方面,OPPO采用了Azure AI Speech国际服务。该服务支持快速准确地将多种语言的音频转录为文本,同时支持定制模型,以增强特定领域术语的识别准确性。微软提供的REST API能以40XRTF的速度创建音频转录——这意味着一个10分钟的音频文件仅需约15秒即可完成转录,完全满足OPPO对时效的要求。此外,语言识别功能可迅速精准地判断用户所使用的语言,确保AI手机能够准确转录和朗读多语种内容。下图展示了OPPO借助Azure AI Speech服务实现语音转录的流程。
在文本朗读方面,OPPO采用了Azure AI文本到语音的TTS服务。该服务基于深度神经网络,使合成语音高度模拟人声,具备类人的自然韵律与清晰发音,显著减轻了交互时的听力疲劳。它还提供多种语音和语言支持,通过预构建的多语言神经语音系统,用户无需动手用眼即可轻松阅读多种语言的内容。下图是OPPO手机利用该服务实现文本转语音的流程。
得益于Azure AI语音服务的易用性以及微软技术团队的优质支持,OPPO项目启动非常迅速。在微软团队的协助下,仅用两周就完成了场景验证,并正式进入项目实施阶段。为提高多语言语音识别的准确率,双方团队协作优化,通过截取多个高质量音频片段进行识别,大幅提升了识别准确率。
借助Azure AI语音到文本和文本到语音服务,OPPO成功为AI手机的两项创新功能带来了更出色的用户体验。
实现超快智能转录
OPPO AI手机的AI录音摘要实现了超快速的智能转录,实时因子(RTF)低于0.3。这意味着用户几乎可以实时地将通话、会议、讲座、待办事项等语音转换为文本,并进一步归纳出摘要信息,极大提升了移动办公效率。此外,Azure AI语音服务行业领先的单词校正率(WCR)使得转录不仅速度快,而且准确度高,减少了误解,在会议、访谈、学术讲座等场景下尤为实用。
AI朗读解放双手
与此同时,基于微软Azure OpenAI国际服务,完美世界游戏正在研发全AI驱动产品。所有玩法和内容均由Azure OpenAI制作,传统代码和美术开发环节由AI Prompt工程师完成。游戏剧情走向及结局完全由AI生成,呈现出开放式、非标准化的情节。玩家通过与Azure OpenAI的互动探索,获得多样、独特、个性化的游戏体验。
保障合规性
与微软的合作也充分保障了OPPO AI手机的合规性。Azure AI全球语音服务遵守严格的安全协议和合规标准,确保用户数据受到保护。在项目实施过程中,OPPO采取了一系列隐私保护措施:音频文件采用匿名方式,不包含可识别的个人信息;数据传输链路加密,音频文件处理完毕后就地删除;各国(地区)的音频文件在本国(地区)处理。这种对安全与隐私的承诺建立了用户信任,让用户可以放心使用OPPO的AI手机。

