微软Fara1.5浏览器AI模型任务成功率72%超越OpenAI

时间：2026-05-24 13:44

微软发布Fara1 5系列浏览器AI智能体模型，基于Qwen3 5构建，通过读取截图输出操作指令，采用“观察—思考—行动”循环。其27B版本在Online-Mind2Web基准测试中任务成功率达72%，超越多款同类模型。训练数据约200万条，来源多样以兼顾通用逻辑与精确操作，并设有安全机制应对模糊任务或不可逆操作。

未来，浏览器操作或许真的无需我们亲自动手了。微软研究院AI Frontiers实验室最新发布了Fara1.5系列模型，这是一套专为浏览器环境设计的计算机使用智能体。该系列包含4B、9B和27B三种不同参数规模的版本，能够灵活适配从轻量到高性能的多样化应用需求。

这套模型需与MagenticLite配合使用——这是微软专为此类智能体开发的沙盒浏览器界面。其工作原理非常直观：智能体直接分析浏览器屏幕截图，随后输出对应的鼠标点击、键盘输入等操作指令，从而实现网页浏览、信息填写、导航跳转等一系列任务的自动化执行。

在技术架构上，Fara1.5基于Qwen3.5的基础模型构建，采用了经典的“观察—思考—行动”决策循环。在每一个决策步骤中，模型都会综合历史对话记录以及最近连续3张浏览器截图进行分析推理，然后精准生成下一个要执行的操作指令。

那么，Fara1.5的实际表现究竟如何？在权威的Online-Mind2Web基准测试中，Fara1.5-27B版本取得了高达72%的任务成功率。该测试基准涵盖了136个主流热门网站，总计包含300项复杂任务，评估范围广泛，结果极具代表性。

通过横向对比，更能凸显其卓越性能。OpenAI的Operator模型成功率为58.3%，Gemini 2.5 Computer Use为57.3%，Yutori Navigator n1为64.7%。尤为值得一提的是，参数规模小得多的Fara1.5-9B版本也达到了63.4%的成功率，表现十分出色。

强大性能的背后，源于其精细化的训练数据策略。Fara1.5使用了约200万条高质量样本进行微调。数据来源构成多元：约60%来自真实的网页操作轨迹记录，12.8%源于合成模拟环境，12.5%专注于表单填写与复杂交互场景。此外，还有8.8%的数据用于事实准确性锚定训练，4.9%则来自视觉问答任务。这种混合型数据配比，旨在让模型既能掌握通用网页的逻辑结构，又能精准处理需要信息匹配与判断的复杂操作。

安全与可控机制是此类智能体能否投入实际应用的核心。Fara1.5设定了清晰的安全边界：当检测到任务缺少必要的个人信息、指令描述过于模糊，或即将执行未经用户确认的不可逆操作时，模型会主动暂停流程并向用户发起询问。所有操作历史均被完整记录在MagenticLite中，而这个沙盒浏览器环境本身，也构成了智能体与用户真实设备之间的一道重要安全隔离屏障。

总体而言，Fara1.5系列的推出，标志着浏览器自动化智能体技术正朝着更成熟、更可靠的方向迈出了坚实一步。从卓越的性能基准测试结果到周全的安全设计，都表明它并非简单的技术演示，而是考虑了实际落地场景的综合性解决方案，为未来智能网页操作提供了强大助力。

来源：https://www.itren.com/digital/180300.html

微软