2026年6月3日,微软Build 2026开发者大会正式拉开帷幕。会上,微软宣布进一步强化Edge浏览器的端侧AI能力——去年基于Phi-4-mini模型推出的写作辅助API迎来新成员,本次共带来三项重要更新:Aion-1.0-Instruct小语言模型的开发者预览版、Edge 148版本中由端侧模型驱动的语言检测与翻译API(支持145种以上语言),以及Edge Canary和Dev通道中实验性的Web Speech API端侧语音识别功能。

在过去一年中,Edge浏览器的写作辅助API一直依赖Phi-4-mini模型。这个拥有40亿参数的模型在文本理解、推理和指令遵循方面表现优异,但较高的硬件要求限制了它在不同设备上的普及。为此,微软在Edge Canary和Dev通道中引入了Aion-1.0-Instruct的开发者预览版——一个更小巧、更快速、更高效的小语言模型。该模型能够覆盖更多设备,包括GPU性能较低的机型,甚至可以通过CPU推理支持无GPU的设备,同时保持出色的输出质量。开发者现在可以在真实Web场景中评估该模型,测试API的互操作性,并提供反馈。根据计划,该模型将于7月以开源形式发布到Hugging Face。
在翻译方面,Edge 148预览版中全新的语言检测和翻译API已正式可用。这些API允许网站和浏览器扩展识别文本语言,并在不同语言对之间进行翻译。基于端侧任务专用模型,该API支持超过145种语言,并针对Web翻译负载进行了优化。开发者可以直接在网站或扩展中使用JavaScript调用这些API——相比云服务,其优势十分明显:更好的用户隐私保护、网络独立性,以及零翻译成本。
在最新的Edge Canary和Dev通道中,微软还引入了处理语音的端侧任务专用模型,实现了Web Speech API的本地语音识别。语音转文字的过程完全在用户设备上完成,隐私性更好、延迟更低,并且支持低网络甚至无网络场景。开发者只需在现有Web Speech API代码中做少量修改——例如设置recognition.processLocally = true——即可开启端侧语音识别。
总的来说,凭借Aion-1.0-Instruct小语言模型、全新的语言检测和翻译API以及端侧语音识别功能,开发者如今可以利用内置于浏览器的模型打造AI驱动的Web体验,无需再依赖专用硬件、云服务或特定领域的专业知识。这一步棋,微软走得非常务实。
微软 Build 2026 开发者大会专题
