中大郑子彬详解智能体评测体系如何赋能可信治理

时间：2026-05-22 08:47

智能体发展带来隐私泄露、可靠性及行为风险等安全挑战。郑子彬教授指出，监管技术滞后于产业发展，亟需构建标准化评测体系以赋能治理。其团队已建立覆盖数十个维度的评测框架，通过自动化检测生成安全评估报告，帮助企业精准识别风险，推动产业向安全、可信、可控方向发展。

如何有效应对智能体技术快速发展带来的安全挑战？这已成为人工智能领域亟待解决的核心课题。在近期一场以“共守智能体安全底线”为主题的“AI新治向”沙龙上，中山大学软件工程学院院长郑子彬教授从可信评测视角出发，为智能体安全治理提供了一套关键评估体系。他强调，当前智能体安全风险日益凸显，而监管技术发展相对滞后，亟需建立一套标准化、可落地的安全评测框架，以技术手段赋能监管，引导产业朝着安全、可信、可控的方向健康发展。

中山大学软件工程学院院长、教授郑子彬作主题分享。

深度解析智能体三大核心安全风险

回顾过去十年技术趋势，Gartner发布的年度战略科技预测中，人工智能相关关键词的演进脉络清晰：从“人工智能”到“生成式AI”，再演进至“智能体”及“多智能体”。至2026年，行业已正式进入智能体应用爆发期，其市场规模迅速扩张，并已成为消耗计算资源（Token）的核心主体。

智能体与大模型之间究竟存在何种关系？郑子彬教授将其形象地比喻为“协同互补关系”——智能体如同大模型的“四肢”，能够主动调用各类应用接口并访问互联网以执行复杂任务，从而有效弥补了大模型在行动能力上的局限。然而，这种强大的自主行动能力也带来了更为复杂的安全隐患。具体而言，风险主要集中体现在以下三个层面：

首先是数据隐私泄露风险。在人机交互过程中，用户个人敏感信息被意外泄露或非法收集的事件屡有发生。其次是输出可靠性问题。大模型本身存在的“幻觉”现象，可能导致其生成的内容与客观事实产生偏差，进而引发决策失误。最后，也是最为严峻的，是智能体行为失控风险。这包括智能体自主越权操作、盲目执行恶意指令、违规进行网络连接，甚至可能造成物理层面的损害。

针对行为风险，郑子彬以当前流行的智能体Skills（技能工具）为例进行了深入剖析。这些看似功能单一的技能文档，一旦被智能体加载运行，便会涉及工具调用权限、数据流向监控和操作边界界定等多个复杂维度，潜藏着不容忽视的安全威胁。他的研究团队曾对互联网上公开发布的超过10万个智能体Skills进行安全检测，结果发现其中有千余个存在越权访问、数据治理失控、恶意代码执行等多重安全隐患。这些风险对于普通用户而言难以识别，极易导致设备失控、隐私信息泄露等严重后果。例如，部分Skills会在后台秘密窃取用户的工作记录并发送至指定地址；有的则会将系统环境变量中的密钥信息隐藏于图片文件中进行外传。

面对日益增长的风险，全球范围内已展开治理行动。各国针对大模型及智能体技术相继出台了一系列法规与政策，尝试从分级分类管理、安全风险评估等多角度探索治理路径。但郑子彬指出一个关键矛盾：监管技术的研发缺乏足够的经济激励，多停留在宏观指导层面，实际落地效果有限；与之相对，大模型及智能体技术本身在强劲的市场需求驱动下发展迅猛。“监管的步伐常常难以跟上技术迭代的速度。”他呼吁，相关监管部门有必要加大对监管技术研发的投入与支持力度。

构建大模型及智能体可信评测体系是关键

那么，如何有效弥合前沿技术与滞后监管之间的鸿沟？郑子彬认为，构建一套科学、系统的大模型及智能体可信能力评测体系至关重要。他的团队曾对8款主流智能体框架的可信能力进行综合评测，结果显示，尽管部分框架在基础任务调度与感知解析方面表现良好，但在涉及安全伦理的风险防御、社会规则协同遵守以及特定垂直领域的专业合规能力上，多数框架存在明显短板。这种“能力失衡”现象暴露出行业在追求智能体高度自主化的同时，对安全底线的考量存在显著不足。

随着大模型及智能体在金融风控、医疗诊断、智慧教育等关键行业的深化应用，企业对系统运行稳定性、输出结果可靠性和潜在风险可控性的要求不断提升。核心需求已从早期的“功能实现”，全面转向对“安全可信、运行可靠、全程可控”的更高追求。在此背景下，企业迫切需要一套具备横向对比价值和实践指导意义的评测标准体系，用以辅助大模型选型、智能体框架评估、具体场景适配以及潜在安全风险识别。

郑子彬建议，行业应着力构建覆盖全维度、可实际落地的大模型及智能体安全评测规范，推动评测工作从理论走向实践。这不仅能够帮助企业精准发现漏洞、针对性优化升级，更代表了人工智能安全治理思路的一次重要转型——从被动的“合规约束”转向主动的“技术赋能”。通过专业的评测服务助力企业排查风险、优化模型，为智能体技术的合规应用与安全落地提供清晰的技术标尺与改进方向，从而推动整个产业链康、有序、可持续发展。

为此，其研究团队已初步构建了针对大模型和智能体的两套体系化评测框架。其中，大模型可信能力评测框架涵盖了安全性、可靠性、隐私保护等7大维度共37项细分指标；智能体可信能力评测框架则更为细致，覆盖行为合规、任务安全、数据治理等9大维度共68项细分指标。依托百万级评测数据积累，通过自动化检测工具与智能分析平台，能够为企业生成定制化的安全评估报告，精准定位其模型或智能体的具体风险点与薄弱环节。

本次“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室与南方都市报社联合主办，并得到广东省网络数据安全与个人信息保护协会的支持。活动汇聚了政府相关部门、司法机构代表、学术专家、企业界人士及媒体等多方力量，共同围绕国家网信办等三部门联合印发的《智能体规范应用与创新发展实施意见》核心要求，深入探讨智能体应用安全风险的底层生成逻辑，探索多元协同共治与创新实践方案。

出品：南都大数据研究院

采写：南都研究员罗韵

摄影：南都N视频记者袁炯贤

来源：https://www.163.com/dy/article/KTG0D1IJ05129QAF.html

智能体

上一篇陪伴机器人揭秘抢红包技巧与隐藏功能 下一篇AICUBE是AI新入口吗深度解析其功能与前景

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5