年薪300万前沿部署工程师被录屏教学取代_AI热点日报

年薪300万前沿部署工程师被录屏教学取代

类型：热点整理2026-06-29

AI 正在学习如何操作电脑。这一趋势，正悄然改变我们的工作方式。过去，我们习惯让 AI 回答问题；如今，它开始直接执行任务。填表、录入系统、整理文档——Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版，越来越多的智能助手正瞄准真实的工作流程。然而，当整个行

AI 正在学习如何操作电脑。这一趋势，正悄然改变我们的工作方式。

过去，我们习惯让 AI 回答问题；如今，它开始直接执行任务。填表、录入系统、整理文档——Anthropic 的 Claude Cowork、OpenAI 的 Codex 桌面版，越来越多的智能助手正瞄准真实的工作流程。

然而，当整个行业竞相涌入桌面场景时，一个核心问题被忽略了：AI 的能力越来越强，但普通人如何才能将自己的工作流程顺畅地交付给它？

目前主流的智能体逻辑看似直接：“你写提示词 → AI 执行”。听起来合理，现实中却屡屡受挫。

打开内部系统、填写表单、上传附件、点击提交……这些动作对员工而言早已是“肌肉记忆”，但若要用文字描述清楚，大多数人立刻卡住。更别提跨系统跳转、条件分支这类复杂操作了，很多人连提示词从何写起都没有头绪。

人说不清流程，AI 还能学会吗？

有趣的是，为应对这一难题，硅谷催生了一个新职业——FDE（Forward Deployment Engineer，前沿部署工程师）。这些工程师驻场在客户公司，每天的任务就是将业务人员“说不清”的流程，翻译成 AI 可执行的任务。他们既懂技术，又熟悉真实工作流。如今，资深 FDE 的年薪中位数已高达 48.5 万美元。

FDE 的高薪，折射出一个现实：企业与 AI 之间的沟通并不简单。让人学会教 AI，这条路并不轻松。

那么，如果能让 AI 自己学会理解业务流程，而不再依赖年薪数十万美元的工程师来翻译，会怎样？

有人给出了不同的答案。

不会写提示词？那就演示给 AI 看

由清华大学计算机系博士团队创立的非十科技，最近发布了一款桌面智能体产品——Agivar。

与大多数产品试图优化提示词的思路不同，它从另一个方向切入：让 AI 主动学习用户的工作流程。

你可以把 Agivar 理解成一个会操作电脑的“AI 员工”。

Agivar 的核心能力叫“录屏教学”，使用方式非常直观：打开电脑录屏，像平时工作一样操作一遍流程。录制结束，剩下的交给 AI。

举个例子，广东省某政务部门的工作人员，每天都要在内部系统处理大量表单。打开系统→选择业务类型→填写信息→上传附件→提交审批，同样的流程每天重复十几次。仅这一项工作，日常就要耗费一两个小时。

这些系统没有 API，没有自动化接口，全靠人工点击。于是，他尝试了 Agivar。录制了一次完整流程，不到三分钟。之后，这套流程就实现了自动执行，无需再盯着屏幕一步步操作。

录屏三分钟，换回每天两小时。

这样的场景远非个例。政务系统、企业 ERP、CRM、财务软件、内部 OA、采购系统……大量重复、无 API、只能手工操作的流程，正是成千上万普通员工的日常。真正消耗时间的，从来不是复杂工作，而是那些让人麻木的重复劳动。

别的智能体还在思考，Agivar 已经做完了

如果你试用过一些桌面智能体，可能会有种感觉：能干，但慢。

原因不复杂。大多数产品直接调用通用多模态大模型“硬解”桌面任务：截图→上传云端→推理→返回→执行，再截图→再推理……这个过程里，大量与任务无关的能力也被带了进来，每次点击都伴随着五秒以上的延迟。整个体验，像一个刚学会用电脑的新人。

Agivar 选择了另一条路线。

团队针对桌面任务场景训练了专用的执行模型，强化了桌面操作能力。在此基础上，设计了“大脑 + 小脑”双层架构：

大模型（大脑）：理解录屏内容、拆解任务目标、规划执行路径、处理异常。
专用小模型（小脑）：界面识别、鼠标点击、键盘输入、高频动作执行。

这和人类的神经系统很相似。开车时，你不会每踩一次油门都重新思考交通规则。大脑负责路线规划，小脑负责具体动作。

支撑这套架构的，是团队基于清华大学自研深度学习框架 Jittor（计图）开发的推理引擎。针对高吞吐、低延迟的桌面任务场景，团队对模型调度和执行链路进行了专门优化，确保大小模型协同时不等待。

速度差距直接体现在数据上：

训练收敛。用海量桌面任务数据，强化“界面状态→用户意图→执行动作”之间的稳定映射，减少“发散”。
多重校验。内部多个智能体交叉验证——规划、执行、观察、复核，不同角色各司其职，每一步都有人问：“点对了吗？界面还在预期状态吗？”
规则约束。高频流程的关键操作节点、绝对不能出错的动作，直接写成程序控制的“铁律”。执行核心步骤时，系统会优先遵循预设路径，不随意发挥。

最终目标只有一个：同一任务重复执行，走同样路径，得到同样结果。

毕竟，对企业而言，生产环境不需要惊喜，只需要稳定。

全栈自研，清华团队的硬核底牌

Agivar 的模型训练到执行框架，全部由非十科技自研完成。团队核心成员来自清华大学计算机系，同时也是清华自研的深度学习框架 Jittor（计图）的主要开发者。

Jittor 以其易用性和效率优势，早已成为国内主流深度学习框架之一。这意味着 Agivar 对底层推理调度的优化，不是建立在第三方能力之上，而是具备从框架层到模型层的完整掌控力。

Agivar 并非团队的第一个“爆款”。此前推出的 AI 编程助手 Fitten Code，累计下载量超过 150 万，在多个主流插件平台评分第一。

同时拥有大模型自研能力、深度学习框架研发能力以及百万级产品落地经验，这样的组合，在国内外同类赛道中并不多见。

让每个人都拥有自己的“AI FDE”

过去两年，AI 行业追逐的是更大、更强的模型。但时间走到今天，一个更现实的问题浮出水面：

AI 到底能不能真正进入普通人的工作流？

FDE 模式曾是答案，但高昂的成本让大多数人望而却步。

今天，Agivar 选择了一条更朴素、也更普惠的路径：把“翻译”和“定义工作流”的能力，交还给用户自己。不用痛苦地学提示词，不必改变习惯。一次录屏演示，就能训练属于自己的桌面智能体。

目前，Agivar 已开启公测，支持 Windows 与 macOS。录一遍，让 AI 替你干活。

从某种意义上说，“录屏教学”真正改变的并不是交互方式，而是人与 AI 之间的协作关系。

它让桌面智能体第一次有机会摆脱复杂配置和专业门槛，真正进入普通人的工作流。如果说过去的软件是在要求人适应系统，那么下一代的智能体正在反过来适应人。

而当每个人都拥有一个能够理解自己工作流程的“AI FDE”时，这场关于效率的变革，或许才刚刚开始。

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-16-11

非十科技

延伸阅读

补充最近整理过的热点入口。