在浏览器自动化这一前沿领域,微软研究院AI Frontiers实验室近期发布了一款备受瞩目的新模型——Fara1.5系列。该系列专为构建智能浏览器操作智能体而设计,并一次性推出了4B、9B和27B三个不同参数规模的版本,旨在全面满足从轻量级到高性能场景的多样化需求。
这套模型如何工作?它需要与微软专门开发的沙盒浏览器界面MagenticLite协同运行。其核心创新在于能够直接解析浏览器屏幕截图,并据此生成精确的鼠标点击、键盘输入等操作指令,从而自动化执行网页浏览、信息填写、导航等一系列复杂任务。本质上,它扮演了一位能够替你高效操作浏览器的AI助手角色。
从技术架构看,Fara1.5基于Qwen3.5的基础模型构建,并采用了经典的“观察-思考-行动”决策循环。在每一次决策过程中,模型会综合分析历史对话上下文以及最近捕获的3张浏览器截图,先进行内部推理与规划,再输出下一个要执行的具体动作指令,确保了操作的连贯性与准确性。

那么,Fara1.5的实际性能表现如何?在涵盖136个热门网站、包含300项复杂任务的Online-Mind2Web权威基准测试中,Fara1.5-27B版本取得了高达72%的任务成功率。
这一成绩在当前同类AI智能体中极具竞争力。作为对比,OpenAI的Operator模型成功率为58.3%,谷歌的Gemini 2.5 Computer Use模型为57.3%,Yutori Navigator n1为64.7%。更值得注意的是,参数规模小得多的Fara1.5-9B版本也实现了63.4%的成功率,其效率与性能表现同样出色。

卓越性能的背后,离不开高质量、多元化的训练数据支撑。Fara1.5使用了约200万条样本进行微调。这些数据来源构成科学:约60%来自真实的网页操作轨迹记录,12.8%源于合成环境模拟,12.5%专注于表单填写与复杂交互场景,8.8%用于事实核查与锚定训练,另有4.9%来自视觉问答任务。这种混合数据策略有效提升了模型对通用网页逻辑的理解能力以及对具体交互细节的处理精度。




当然,让AI自动操作浏览器,安全性与可控性是至关重要的前提。Fara1.5在此方面进行了针对性强化设计。模型在三种关键情况下会主动暂停并请求用户确认:一是当任务执行缺乏必要的个人信息输入时;二是用户指令描述过于模糊、存在歧义时;三是即将执行删除文件等未经批准的不可逆操作时。此外,所有操作历史都会在MagenticLite界面中完整留存,而沙盒浏览器环境本身,则在智能体与用户的真实操作系统之间建立了一道可靠的安全隔离层。
