游乐游手机版
首页/AI热点日报/热点详情

OpenAI智能体Operator背后的CUA核心技术原理与架构深度解析

类型:热点整理2026-06-29
OpenAI最近发布的AGI L3级智能体Operator,把CUA(Computer-Using Agent)技术推到了聚光灯下。在此之前,智谱的GLM-PC、字节和清华合作的UI-TARS才刚热乎着,今天OpenAI就紧随其后,拿出了Operator。简单说,这就是一个能替你上网干活的智能体——

OpenAI最近发布的AGI L3级智能体Operator,把CUA(Computer-Using Agent)技术推到了聚光灯下。在此之前,智谱的GLM-PC、字节和清华合作的UI-TARS才刚热乎着,今天OpenAI就紧随其后,拿出了Operator。简单说,这就是一个能替你上网干活的智能体——它有自己的浏览器,能看网页,还能像人一样输入、点击、滚动。

Operator的核心是一个叫“Computer-Using Agent(CUA)”的新模型。它把GPT-4o的视觉能力和强化学习训练出来的高级推理能力融为了一体,专门为了和图形界面打交道而生——就是你屏幕上的那些按钮、菜单、输入框。根据你的指令,CUA会进入一个包含感知、推理、动作的循环,一步步把任务执行下去。

那么,如果我们也想自己动手构建一个开源的Computer-Using Agent,需要啃下哪些硬骨头呢?

  1. 安全问题:得把操作系统隔离在一个安全、可控制的环境里,不能让Agent乱跑。

  2. 精确点击:AI得像长了手一样,能精准点到屏幕上任何一个UI元素。

  3. 决策推理:让AI能根据“看到”的东西,自己判断下一步该干什么,或者什么时候该停下。

  4. 模型部署:以划算的方式托管一个开源模型。

  5. 实时画面:找到一种低延迟的办法,把沙箱里的屏幕画面实时显示和录制下来。

挑战一:安全

先说不容忽视的安全问题。一个理想的AI Agent运行环境,用起来得顺手,性能得好,最关键的还得安全。直接让Agent访问你的个人电脑和文件系统?那太危险了。它万一不小心删了你的重要文件,或者执行了什么不可恢复的操作,后果不堪设想。所以,得把它圈在一个安全的沙箱里。

挑战二:精确点击

当界面全是文本时,让AI“使用电脑”就简单多了,用文本命令就能搞定大部分事情。但偏偏有很多应用,没鼠标根本玩不转。所以,一个想全面接管电脑操作的Agent,必须得会这一招。这就需要用到具备视觉能力的LLM,它能根据输入的图像,输出精确的坐标。像Gemini和Claude这些模型,已经具备了这种能力。

挑战三:决策推理

基于LLM的Agent最大的优势,就是能在多个操作步骤中做决策,并根据最新的信息做出最优选择。过去一年里,LLM在这方面的能力是越来越强。最原始的办法就是给LLM写一个提示词,让它按指定的文本格式输出操作命令,然后再把结果塞回聊天记录,让LLM接着分析。后来的各种方法,基本都是在用微调来增强系统提示的效果。这个通用能力,就是我们常说的“函数调用”。

如果想在一个LLM调用里,就结合视觉信息来指导工具使用,可以试试这些开源模型:

  • Llama-3.2-90B-Vision-Instruct:负责“看”沙盒画面,并决定下一步该做什么。
  • Llama 3.3-70B-Instruct:基于Llama 3.2的决策结果,用工具调用的格式重新组织和表达。
  • OS-Atlas-Base-7B:可以把它当成一个工具,Agent根据提示词调用它来执行具体的点击操作。

挑战四:部署LLM

Agent反赌不快,很影响使用体验。所以,我们倾向于把LLM推理放到云端去跑,同时还希望它开箱即用,省去一堆麻烦的配置。像Llama 3.2和3.3这些模型,配合OpenRouter、Fireworks AI或者官方的Llama API,都是不错的选择。

挑战五:流式显示

想实时看到AI在干什么,就需要能从沙盒屏幕获取实时画面。

服务器端,可以用这个命令:

ffmpeg -f x11grab -s 1024x768 -framerate 30 -i $DISPLAY -vcodec libx264 -preset ultrafast -tune zerolatency -f mpegts -listen 1 http://localhost:8080

客户端,用这个命令:

ffmpeg -reconnect 1 -i http://servername:8080 -c:v libx264 -preset fast -crf 23 -c:a aac -b:a 128k -f mpegts -loglevel quiet - | tee output.ts | ffplay -autoexit -i -loglevel quiet -

第一条命令是通过HTTP建立一个视频流服务器,一次只能给一个客户端推送画面。第二条命令则是抓取这个流,一边把它写入一个.ts文件存下来,一边在GUI上实时显示出来。这套方案在网络环境下运行良好,服务器用的是FFmpeg自带的功能,但限制就是一次只能服务一个客户端。所以客户端这边得用tee命令来分流,实现保存和显示同时进行。

OpenAI Operator合并PDF的全流程演示

参考链接:

来源:https://www.53ai.com/news/LargeLanguageModel/2025020510394.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。