中大郑子彬详解智能体评测体系如何赋能可信治理
如何有效应对智能体技术快速发展带来的安全挑战?这已成为人工智能领域亟待解决的核心课题。在近期一场以“共守智能体安全底线”为主题的“AI新治向”沙龙上,中山大学软件工程学院院长郑子彬教授从可信评测视角出发,为智能体安全治理提供了一套关键评估体系。他强调,当前智能体安全风险日益凸显,而监管技术发展相对滞后,亟需建立一套标准化、可落地的安全评测框架,以技术手段赋能监管,引导产业朝着安全、可信、可控的方向健康发展。

中山大学软件工程学院院长、教授郑子彬作主题分享。
深度解析智能体三大核心安全风险
回顾过去十年技术趋势,Gartner发布的年度战略科技预测中,人工智能相关关键词的演进脉络清晰:从“人工智能”到“生成式AI”,再演进至“智能体”及“多智能体”。至2026年,行业已正式进入智能体应用爆发期,其市场规模迅速扩张,并已成为消耗计算资源(Token)的核心主体。
智能体与大模型之间究竟存在何种关系?郑子彬教授将其形象地比喻为“协同互补关系”——智能体如同大模型的“四肢”,能够主动调用各类应用接口并访问互联网以执行复杂任务,从而有效弥补了大模型在行动能力上的局限。然而,这种强大的自主行动能力也带来了更为复杂的安全隐患。具体而言,风险主要集中体现在以下三个层面:
首先是数据隐私泄露风险。在人机交互过程中,用户个人敏感信息被意外泄露或非法收集的事件屡有发生。其次是输出可靠性问题。大模型本身存在的“幻觉”现象,可能导致其生成的内容与客观事实产生偏差,进而引发决策失误。最后,也是最为严峻的,是智能体行为失控风险。这包括智能体自主越权操作、盲目执行恶意指令、违规进行网络连接,甚至可能造成物理层面的损害。
针对行为风险,郑子彬以当前流行的智能体Skills(技能工具)为例进行了深入剖析。这些看似功能单一的技能文档,一旦被智能体加载运行,便会涉及工具调用权限、数据流向监控和操作边界界定等多个复杂维度,潜藏着不容忽视的安全威胁。他的研究团队曾对互联网上公开发布的超过10万个智能体Skills进行安全检测,结果发现其中有千余个存在越权访问、数据治理失控、恶意代码执行等多重安全隐患。这些风险对于普通用户而言难以识别,极易导致设备失控、隐私信息泄露等严重后果。例如,部分Skills会在后台秘密窃取用户的工作记录并发送至指定地址;有的则会将系统环境变量中的密钥信息隐藏于图片文件中进行外传。
面对日益增长的风险,全球范围内已展开治理行动。各国针对大模型及智能体技术相继出台了一系列法规与政策,尝试从分级分类管理、安全风险评估等多角度探索治理路径。但郑子彬指出一个关键矛盾:监管技术的研发缺乏足够的经济激励,多停留在宏观指导层面,实际落地效果有限;与之相对,大模型及智能体技术本身在强劲的市场需求驱动下发展迅猛。“监管的步伐常常难以跟上技术迭代的速度。”他呼吁,相关监管部门有必要加大对监管技术研发的投入与支持力度。
构建大模型及智能体可信评测体系是关键
那么,如何有效弥合前沿技术与滞后监管之间的鸿沟?郑子彬认为,构建一套科学、系统的大模型及智能体可信能力评测体系至关重要。他的团队曾对8款主流智能体框架的可信能力进行综合评测,结果显示,尽管部分框架在基础任务调度与感知解析方面表现良好,但在涉及安全伦理的风险防御、社会规则协同遵守以及特定垂直领域的专业合规能力上,多数框架存在明显短板。这种“能力失衡”现象暴露出行业在追求智能体高度自主化的同时,对安全底线的考量存在显著不足。
随着大模型及智能体在金融风控、医疗诊断、智慧教育等关键行业的深化应用,企业对系统运行稳定性、输出结果可靠性和潜在风险可控性的要求不断提升。核心需求已从早期的“功能实现”,全面转向对“安全可信、运行可靠、全程可控”的更高追求。在此背景下,企业迫切需要一套具备横向对比价值和实践指导意义的评测标准体系,用以辅助大模型选型、智能体框架评估、具体场景适配以及潜在安全风险识别。
郑子彬建议,行业应着力构建覆盖全维度、可实际落地的大模型及智能体安全评测规范,推动评测工作从理论走向实践。这不仅能够帮助企业精准发现漏洞、针对性优化升级,更代表了人工智能安全治理思路的一次重要转型——从被动的“合规约束”转向主动的“技术赋能”。通过专业的评测服务助力企业排查风险、优化模型,为智能体技术的合规应用与安全落地提供清晰的技术标尺与改进方向,从而推动整个产业链康、有序、可持续发展。
为此,其研究团队已初步构建了针对大模型和智能体的两套体系化评测框架。其中,大模型可信能力评测框架涵盖了安全性、可靠性、隐私保护等7大维度共37项细分指标;智能体可信能力评测框架则更为细致,覆盖行为合规、任务安全、数据治理等9大维度共68项细分指标。依托百万级评测数据积累,通过自动化检测工具与智能分析平台,能够为企业生成定制化的安全评估报告,精准定位其模型或智能体的具体风险点与薄弱环节。
本次“AI新治向”系列沙龙由粤港澳大湾区生成式人工智能安全发展联合实验室与南方都市报社联合主办,并得到广东省网络数据安全与个人信息保护协会的支持。活动汇聚了政府相关部门、司法机构代表、学术专家、企业界人士及媒体等多方力量,共同围绕国家网信办等三部门联合印发的《智能体规范应用与创新发展实施意见》核心要求,深入探讨智能体应用安全风险的底层生成逻辑,探索多元协同共治与创新实践方案。
出品:南都大数据研究院
采写:南都研究员 罗韵
摄影:南都N视频记者 袁炯贤
相关攻略
从“数字皮囊”到“智慧内核”:数字孪生IOC的智能化瓶颈与突破路径 在各类数字孪生IOC(智能运营中心)项目成果展示会上,我们常被极具视觉冲击力的场景所震撼:巨幅屏幕上,数据流如星河般动态穿梭,三维城市模型精细逼真,光影切换间科技感十足。然而,当演示结束,甲方负责人提出一个核心业务问题时,气氛往往急
人工智能正从“思考者”迈向“行动派”。今天,仅仅依靠一个大语言模型进行问答对话,已经难以应对现实世界中纷繁复杂的业务需求。这时,智能体编排工具(AI Agent Orchestration Tools)便成为了连接大模型“智慧大脑”与外部真实世界“行动四肢”的关键枢纽。它让开发者或业务人员能够通过预
摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 当大模型技术从“聊天”向“智能体”演进时,一个形象化的代称——“中国龙虾AI”——正悄然兴起。它究竟指什么?简单来说,这并非一个生物概念,而是指那些能够像人类员工一样,理解指令、使用工具、看懂屏幕并自主完成复杂
腾讯正式上线操作系统层级AI助手Marvis,支持Windows、Mac和安卓系统,iOS版预计6月中旬推出。该助手区别于传统对话工具,旨在整合系统、文件、应用及跨设备资源,用户通过自然语言指令即可完成复杂任务,例如整理会议记录并发送。在涉及隐私与安全的关键环节,Marvis会交还控制权由用户确认。
摘要由实在Agent通过智能技术生成。此内容由AI根据文章内容自动生成,并已由人工审核。 本文深度解析AI智能体的核心架构、企业级应用场景与选型指南,并重点探讨实在智能Agent数字员工构建平台。通过中海油等标杆客户案例,展示国产智能体在智能审核、数据分析等领域的卓越表现,并分析取数宝如何为AI智能
热门专题
热门推荐
Web3与加密货币世界深度解析:从入门到精通 随着区块链技术的不断成熟与普及,一个被称为“Web3”的全新数字时代正在加速到来。这个以去中心化为核心理念的生态系统,正深刻改变着我们对价值、所有权和信任的认知。对于广大投资者和科技爱好者而言,理解这个常被称为“币圈”的领域,不仅是把握前沿趋势的关键,更
币安交易所提供官方注册与安全登录服务。用户可通过官网直达主页,确保使用正规渠道进行账户操作,保障资产安全。平台强调安全登录的重要性,建议用户直接访问官方链接以避免风险。
QoderWake数字分身通过五大核心技术实现动作精准捕捉与还原。基于Session账本三维锚定行为轨迹,确保可追溯与复现。Harness-First架构隔离意图与执行,保障操作安全。Critic-Refiner机制自动验证动作质量并闭环纠偏。防腐治理动态评估动作有效性,防止模板老化。Connector生态建立跨工具动作映射,确保异构系统间操作一致。这些技术
简历应避免流水账式经历和空洞评价。工作经历需用“动词+成果+数据”结构突出价值,如具体增长或性能提升数据。自我评价应基于事实,清晰展示核心优势与证明。AI工具可辅助优化结构,但关键数据、业务背景及岗位匹配逻辑需自行把控,核心在于用结果和证据展现个人价值。
翻译PDF英文文档需兼顾效率与质量。全球化背景下,此类需求日益普遍。可采用专业工具辅助翻译,并建立术语库确保一致性。处理时需注意格式保留与术语准确,结合人工校对提升成果质量。根据文档类型选择合适工具,并充分利用外部资源进行核查。





