OpenAI智能体Operator背后的CUA核心技术原理与架构深度解析_AI热点日报

OpenAI智能体Operator背后的CUA核心技术原理与架构深度解析

类型：热点整理2026-06-29

OpenAI最近发布的AGI L3级智能体Operator，把CUA（Computer-Using Agent）技术推到了聚光灯下。在此之前，智谱的GLM-PC、字节和清华合作的UI-TARS才刚热乎着，今天OpenAI就紧随其后，拿出了Operator。简单说，这就是一个能替你上网干活的智能体——

OpenAI最近发布的AGI L3级智能体Operator，把CUA（Computer-Using Agent）技术推到了聚光灯下。在此之前，智谱的GLM-PC、字节和清华合作的UI-TARS才刚热乎着，今天OpenAI就紧随其后，拿出了Operator。简单说，这就是一个能替你上网干活的智能体——它有自己的浏览器，能看网页，还能像人一样输入、点击、滚动。

Operator的核心是一个叫“Computer-Using Agent（CUA）”的新模型。它把GPT-4o的视觉能力和强化学习训练出来的高级推理能力融为了一体，专门为了和图形界面打交道而生——就是你屏幕上的那些按钮、菜单、输入框。根据你的指令，CUA会进入一个包含感知、推理、动作的循环，一步步把任务执行下去。

那么，如果我们也想自己动手构建一个开源的Computer-Using Agent，需要啃下哪些硬骨头呢？

安全问题：得把操作系统隔离在一个安全、可控制的环境里，不能让Agent乱跑。
精确点击：AI得像长了手一样，能精准点到屏幕上任何一个UI元素。
决策推理：让AI能根据“看到”的东西，自己判断下一步该干什么，或者什么时候该停下。
模型部署：以划算的方式托管一个开源模型。
实时画面：找到一种低延迟的办法，把沙箱里的屏幕画面实时显示和录制下来。

挑战一：安全

先说不容忽视的安全问题。一个理想的AI Agent运行环境，用起来得顺手，性能得好，最关键的还得安全。直接让Agent访问你的个人电脑和文件系统？那太危险了。它万一不小心删了你的重要文件，或者执行了什么不可恢复的操作，后果不堪设想。所以，得把它圈在一个安全的沙箱里。

挑战二：精确点击

当界面全是文本时，让AI“使用电脑”就简单多了，用文本命令就能搞定大部分事情。但偏偏有很多应用，没鼠标根本玩不转。所以，一个想全面接管电脑操作的Agent，必须得会这一招。这就需要用到具备视觉能力的LLM，它能根据输入的图像，输出精确的坐标。像Gemini和Claude这些模型，已经具备了这种能力。

挑战三：决策推理

基于LLM的Agent最大的优势，就是能在多个操作步骤中做决策，并根据最新的信息做出最优选择。过去一年里，LLM在这方面的能力是越来越强。最原始的办法就是给LLM写一个提示词，让它按指定的文本格式输出操作命令，然后再把结果塞回聊天记录，让LLM接着分析。后来的各种方法，基本都是在用微调来增强系统提示的效果。这个通用能力，就是我们常说的“函数调用”。

如果想在一个LLM调用里，就结合视觉信息来指导工具使用，可以试试这些开源模型：

Llama-3.2-90B-Vision-Instruct：负责“看”沙盒画面，并决定下一步该做什么。
Llama 3.3-70B-Instruct：基于Llama 3.2的决策结果，用工具调用的格式重新组织和表达。
OS-Atlas-Base-7B：可以把它当成一个工具，Agent根据提示词调用它来执行具体的点击操作。

挑战四：部署LLM

Agent反赌不快，很影响使用体验。所以，我们倾向于把LLM推理放到云端去跑，同时还希望它开箱即用，省去一堆麻烦的配置。像Llama 3.2和3.3这些模型，配合OpenRouter、Fireworks AI或者官方的Llama API，都是不错的选择。

挑战五：流式显示

想实时看到AI在干什么，就需要能从沙盒屏幕获取实时画面。

服务器端，可以用这个命令：

ffmpeg -f x11grab -s 1024x768 -framerate 30 -i $DISPLAY -vcodec libx264 -preset ultrafast -tune zerolatency -f mpegts -listen 1 http://localhost:8080

客户端，用这个命令：

ffmpeg -reconnect 1 -i http://servername:8080 -c:v libx264 -preset fast -crf 23 -c:a aac -b:a 128k -f mpegts -loglevel quiet - | tee output.ts | ffplay -autoexit -i -loglevel quiet -

第一条命令是通过HTTP建立一个视频流服务器，一次只能给一个客户端推送画面。第二条命令则是抓取这个流，一边把它写入一个.ts文件存下来，一边在GUI上实时显示出来。这套方案在网络环境下运行良好，服务器用的是FFmpeg自带的功能，但限制就是一次只能服务一个客户端。所以客户端这边得用tee命令来分流，实现保存和显示同时进行。

OpenAI Operator合并PDF的全流程演示

参考链接：

https://blog.jamesmurdza.com/how-i-taught-an-ai-to-use-a-computer
https://openai.com/index/computer-using-agent/

来源：https://www.53ai.com/news/LargeLanguageModel/2025020510394.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。