先跟大家分享一个有趣的消息:在千问输入法APP正式亮相之前,阿里云率先推出了一款全新AI语音输入法的实测版本。没错,就是这款名为“CosyVoice”的产品,它专注于语音输入功能,背后集成了千问大模型。
据《读佳》了解,这款产品功能相当强大:它支持多语种实时转写、方言精准识别、指令意图深度理解等一系列实用特性。目前macOS版本和移动端APP均已上线,APP采用的是冷启动策略,现阶段提供限时免费体验,未来不排除推出付费订阅服务。

不多说,直接进入实际体验环节。
打开电脑端后,第一步是配置权限——文本粘贴、麦克风、录屏,这三个开关强烈建议全部打开。为什么?简单来说,这样可以减少重复的弹窗授权,让操作流程更加顺畅高效。

接下来设置语音输入的唤醒快捷键,系统默认设置为“Fn”。操作逻辑非常清晰直观:在聊天窗口中,按下“Fn”键开始说话,说完再按一次“Fn”结束,语音就会自动转换为文字并填入输入框。例如,如果你想说“你好,这里是读佳”,整个过程一气呵成,十分便捷。
不过,实际测试中也发现了一个明显的短板:原生词库对于小众专属名词、自媒体品牌名称、自创词汇的识别准确率明显不足,同音的高频词很容易覆盖掉自定义的词汇。比如“读佳”就被误识别为“独家”——这种偏差虽然可以通过手动修改或重新口述来纠正,但如果频繁出现,确实会显著影响输入效率。

好在产品团队似乎已经意识到了这个问题,并配套推出了热词Skill功能。用户可以手动录入各类专属词汇,保存后模型在转写时会优先匹配自定义的热词,从源头上有效减少同音词的误识别。对于自媒体从业者、行业专项人员来说,这项功能非常有价值——批量导入专业术语和项目名称后,识别效果确实能够得到显著改善。

总体来看,这款语音输入法的上手门槛很低,操作逻辑也相当直观。无论是日常聊天交流,还是文字创作者撰写稿件,使用起来都非常自然流畅。
当然,如果仅仅停留在基础的语音转文字功能上,那它和市面上其他同类产品相比并没有太大优势。CosyVoice真正的亮点,在于它搭载的几项差异化实用功能。
1. 智能净化口语冗余内容
在转写过程中,系统会自动识别并去除那些口语化的填充词以及无意义的重复词汇,只保留核心信息,让最终文本更加简洁专业。

2. 自动结构化整理口述内容
如果你口述的内容包含了分点需求、项目规划或数据对比,CosyVoice会自动识别其中的逻辑结构,将其整理成编号列表、表格或者层级大纲,输出格式条理清晰,完全不需要手动排版。完成后可以直接复制发送,非常高效。

3. 支持口语修正自动改写
日常说话时谁还没有改口的情况?比如“不对不对”、“改成”、“我意思是”这类自我修正的表达。CosyVoice能够智能识别这些修正语句,并自动应用到最终稿件中,不留任何改口痕迹,确保文稿流畅自然。

4. 一键生成完整制式文稿
需要写邮件?写会议邀请函?还是写vlog脚本?只需告诉CosyVoice你想要的格式,它就能直接生成一份完整的稿件。从称谓、问候到签名,一步到位,节省大量时间。

5. 数字、公式智能标准化转换
口播中的“三点五八亿”、“百分之十二点六”,可以直接还原为“3.58亿”、“12.6%”。遇到公式表达时,也能自动补齐符号。对于金融、科研、媒体等专业场景来说,这一功能非常实用。

6. 多方言实时转普通话
测试中还发现一个有趣的特点:CosyVoice能够识别上海话、粤语、四川话等多种方言,并实时转写成标准普通话。比如你对着麦克风说一段上海话,它会自动输出对应的普通话文字,极大地方便了跨方言沟通场景。

此外,客户端内还集成了完善的数据统计功能。所有历史口述记录会自动保存在首页,面板上可以直观地看到累计口述时长、总输入字数、平均口述速度,甚至还有语音输入所节省的手动打字时间。对于追求效率的用户来说,这点非常友好。

再来看移动端。APP的核心功能与电脑端完全一致,只是在操作形式上有所区别。手机端不需要配置快捷键,只需在系统输入法设置中勾选启用CosyVoice,即可全局调用。点击任意输入框唤起键盘后,界面中间会显示一个独立的语音录制按钮——点击开始口述,再点击结束转写,文字就会实时填入输入框。键盘自带撤销和换行功能,左下角的切换键还可以一键切换回系统自带或第三方输入法,兼顾语音输入与传统打字需求。

最后做一个总结:
依托千问大模型的CosyVoice,跳出了传统输入法文字输入的竞争赛道,主打的其实是全场景AI语音录入。它同时适配电脑和手机双端,覆盖了日常闲聊、自媒体创作、办公写稿、专业数据记录、方言采访等多种使用场景。
虽然原生通用词库对部分小众专有名词的识别确实存在缺陷,但热词Skill功能很好地弥补了这一短板。而自动净化口语、结构化排版、制式文稿生成、方言转写、数字标准化等特色功能,更是大幅降低了语音转文字后的文稿整理成本。对于高频文字输出的用户群体来说,效率提升效果非常显著。
目前该产品以冷启动模式上线,未来随着词库的持续迭代和自定义热词功能的不断优化,这款产品在办公和内容创作赛道上的语音输入市场份额,确实值得期待。
