未来,浏览器操作或许真的无需我们亲自动手了。微软研究院AI Frontiers实验室最新发布了Fara1.5系列模型,这是一套专为浏览器环境设计的计算机使用智能体。该系列包含4B、9B和27B三种不同参数规模的版本,能够灵活适配从轻量到高性能的多样化应用需求。
这套模型需与MagenticLite配合使用——这是微软专为此类智能体开发的沙盒浏览器界面。其工作原理非常直观:智能体直接分析浏览器屏幕截图,随后输出对应的鼠标点击、键盘输入等操作指令,从而实现网页浏览、信息填写、导航跳转等一系列任务的自动化执行。
在技术架构上,Fara1.5基于Qwen3.5的基础模型构建,采用了经典的“观察—思考—行动”决策循环。在每一个决策步骤中,模型都会综合历史对话记录以及最近连续3张浏览器截图进行分析推理,然后精准生成下一个要执行的操作指令。

那么,Fara1.5的实际表现究竟如何?在权威的Online-Mind2Web基准测试中,Fara1.5-27B版本取得了高达72%的任务成功率。该测试基准涵盖了136个主流热门网站,总计包含300项复杂任务,评估范围广泛,结果极具代表性。
通过横向对比,更能凸显其卓越性能。OpenAI的Operator模型成功率为58.3%,Gemini 2.5 Computer Use为57.3%,Yutori Navigator n1为64.7%。尤为值得一提的是,参数规模小得多的Fara1.5-9B版本也达到了63.4%的成功率,表现十分出色。

强大性能的背后,源于其精细化的训练数据策略。Fara1.5使用了约200万条高质量样本进行微调。数据来源构成多元:约60%来自真实的网页操作轨迹记录,12.8%源于合成模拟环境,12.5%专注于表单填写与复杂交互场景。此外,还有8.8%的数据用于事实准确性锚定训练,4.9%则来自视觉问答任务。这种混合型数据配比,旨在让模型既能掌握通用网页的逻辑结构,又能精准处理需要信息匹配与判断的复杂操作。




安全与可控机制是此类智能体能否投入实际应用的核心。Fara1.5设定了清晰的安全边界:当检测到任务缺少必要的个人信息、指令描述过于模糊,或即将执行未经用户确认的不可逆操作时,模型会主动暂停流程并向用户发起询问。所有操作历史均被完整记录在MagenticLite中,而这个沙盒浏览器环境本身,也构成了智能体与用户真实设备之间的一道重要安全隔离屏障。
总体而言,Fara1.5系列的推出,标志着浏览器自动化智能体技术正朝着更成熟、更可靠的方向迈出了坚实一步。从卓越的性能基准测试结果到周全的安全设计,都表明它并非简单的技术演示,而是考虑了实际落地场景的综合性解决方案,为未来智能网页操作提供了强大助力。
