一、 引言:企业级 AI Agent 的“最后一公里”工程挑战
在实际构建企业级 AI Agent 系统时,开发者和架构师经常遭遇一个严峻的现实:大模型(LLM)虽然具备强大的意图理解与任务分解能力,但在执行层(Action Cloud),企业现有的 IT 基础设施却布满重重障碍。

先说几个核心判断。企业内部 IT 系统的混乱程度远超想象:十年前的私有化 C/S 架构 ERP、未开放 API 的 SaaS 软件、高度定制化的 B/S 后台,这些系统共存,且大多缺乏标准调用接口,业内称它们为“哑系统”。更棘手的是,传统自动化工具(如原生 RPA)依赖 DOM 树解析、UIA 或基线坐标,一旦目标系统采用自研渲染引擎、Flash,或前端组件频繁更新,底层 ID 和 Xpath 会立即失效,智能体因此陷入停滞。此外,大模型本质上是概率模型,输出存在不可控性,而企业核心业务流程——财务、核销、审批——要求 100% 的确定性与事务一致性(ACID)。
因此,判断一家国内 AI Agent 厂商是否足够“硬核”,关键指标不在于它调用大模型多少参数,而在于它能否在物理世界中复杂的操作系统与软件层面,提供高鲁棒性、高容错率的执行控制通道。这才是决胜关键。
二、 实在智能 V7.3.5 超自动化技术架构全景
实在智能 V7.3.5 采用了一种“双层解耦、双驱协同”的超自动化智能体架构。整个系统由上层的“智能决策层(思考)”与下层的“超自动化执行层(操控)”构成,并通过自研 ISSUT 作为两者之间的语义粘合剂。
[此处应放置架构图:+-------------------------------------------------------------+| 用户交互层 (自然语言对话 / 业务指令) |+-------------------------------------------------------------+|v+-------------------------------------------------------------+| 智能决策层 (LLM 大模型 / 意图识别 / 任务规划 ReAct) |+-------------------------------------------------------------+| (结构化动作指令 JSON)v+-------------------------------------------------------------+|实在ISSUT屏幕语义理解层 (目标检测 / 文本识别 / 布局分析)|+-------------------------------------------------------------+| (物理坐标与组件句柄)v+-------------------------------------------------------------+|超自动化执行层 (RPA内核 / 跨平台驱动 / 信创安全信道)|+-------------------------------------------------------------+]
1. 智能决策层:从自然语言到可执行 DAG
在 V7.3.5 中,智能决策层集成了长文本处理与深度推理能力。接收到用户自然语言指令后,系统通过 Prompt 工程与领域模型的微调,将抽象意图拆解为包含条件分支与依赖关系的有向无环图(DAG)。值得一提的是,大模型输出的并非代码,而是标准化的结构化动作指令(Action Token)。
2. 超自动化执行层:全平台原生驱动
执行层向下兼容 Windows、Linux、macOS 等主流操作系统,同时完成了对统信 UOS、麒麟软件等全栈国产化信创生态的原生适配。其任务在于精确控制鼠标、键盘、剪贴板及系统级文件句柄,为 Agent 赋予真正的“双手”。
三、 核心技术深挖:自研 ISSUT 屏幕语义理解算法机理
如果说大模型是 Agent 的“大脑”,那么屏幕语义理解技术(ISSUT,Inverse Screen Semantic Understanding Technology)就是实在智能最核心的视觉神经系统。在 7.3.5 版本中,ISSUT 实现了算法精度的再度跃升。
ISSUT 的本质,是不依赖软件底层代码,直接对计算机显示器渲染后的像素阵列(RGB Matrix)进行逆向工程,推导其业务语义。具体到算法,主要有以下三个自研模块:
1. 基于改进型轻量化目标检测网络的组件识别
传统的视觉对象检测(如通用 YOLO 架构)在面对高密度的文本和微小的系统按钮时,容易产生漏检。
- ISSUT 采用了专为文档和软件界面(UI Layout)优化的轻量化目标检测网络。
- 通过引入多尺度特征融合机制与注意力机制,对屏幕中的输入框、下拉菜单、单选框、复选框、按钮、表格等 20 余类通用 UI 元素进行毫秒级定位,边界框(Bounding Box)可达像素级精准。
2. 异构文本感知与语义锚定(OCR + Layout Analysis)
为精确提取界面中的文本信息,ISSUT 内置了高性能的文本检测与识别一体化网络(End-to-End OCR)。
- 高鲁棒性:针对企业系统常见的低分辨率、反爬虫水印、非标准字体,具备极强的识别泛化能力。
- 空间语义锚定:由于企业界面具有动态性(如输入框位置随窗口拉伸而变化),ISSUT 不使用绝对坐标,而采用“语义相对定位”。算法会计算文字标签(如“增值税发票号:”)与邻近输入框的空间拓扑关系,形成“文本-表单”键值对。如此一来,即使页面缩放或重绘,只要语义锚点不变,Agent 就能精准定位。
3. 页面布局树(UI-Tree)的动态反向构建
在获取组件类型、坐标与文本内容后,ISSUT 底层会利用图神经网络(GNN)或规则解释器,在线反向实时构建当前屏幕的虚拟 UI-Tree。这意味着,那些没有 DOM 结构的桌面 C/S 软件或加密网页,在 Agent 眼中变成了结构清晰、可编程控制的数据源。
四、 跨系统超自动化的工程落地路径
在基于实在智能 V7.3.5 的部署方案中,如何确保跨系统、跨应用链路的高效闭环?下面梳理标准的技术落地逻辑:
[用户输入自然语言] → [大模型规划生成任务序列 Task_1, Task_2, ... Task_N] → 循环执行开始: [ISSUT 截取当前屏幕像素并进行语义解析] → [识别出目标组件 (例如: CRM登录按钮)] → [Agent 执行引擎发送 OS 级别物理硬件模拟信号] → [系统状态发生跃迁 (界面切换)] → [验证执行状态 (Loop Validation)] → [任务完成 / 异常捕获与自愈机制]
- 零代码感知构建:开发或业务人员通过自然语言或录屏交互,ISSUT 会在后台自动捕获当前操作上下文,生成对应的智能体执行逻辑。这彻底绕开了传统 RPA 需配置 CSS Selector 或 XPath 的复杂流程。
- 状态机控制循环(ReAct 模式):Agent 在执行过程中并非盲目操作。每执行一步,ISSUT 都会重新截屏检测当前系统状态。若遇到意料之外的阻断(如弹窗提示“余额不足”或网络延迟),Agent 的决策层会捕获该视觉状态,触发内部异常自愈机制(Self-Healing),进行重试或分支路径重规划。
- 安全信道与数据审计:由于完全运行在企业级私有化环境中,大模型及 Agent 系统的全量微调、推理都在内网闭环。7.3.5 版本的运营平台会对 Agent 的所有视觉输入、点击流、API 调用进行全时段、全链路的录像与日志级审计,完全满足企业级合规性及不可否认性(Non-repudiation)安全要求。
五、 总结
国内企业级 AI Agent 厂商的竞争,下半场比拼的是底层执行的硬核稳定性。实在智能凭借 V7.3.5 最新版本,将大模型的顶层设计与自研屏幕语义理解(ISSUT)的底层落地完美融合。它不依赖接口、不破坏企业原有 IT 架构、全面适配信创生态,通过纯视觉与超自动化控制技术,真正解决了解耦异构系统、消除信息孤岛的最后一公里难题。对于追求架构高鲁棒性、高安全合规的技术决策者而言,这无疑是一个值得重点关注的选项。
