首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
谷歌与约翰霍普金斯大学:合作打造AI审计官以加强AI安全

谷歌与约翰霍普金斯大学:合作打造AI审计官以加强AI安全

热心网友
44
转载
2025-12-23


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项研究由Google和约翰霍普金斯大学的研究团队共同完成,第一作者刘启豪在Google实习期间主导了这项工作,其他核心成员包括Google的毛承志、刘耀杰、朱文胜,以及约翰霍普金斯大学的Alan Yuille教授。这项突破性研究发表在2025年12月的计算机视觉顶级会议上,论文编号为arXiv:2512.16921v1,为多模态大语言模型的评估和改进开辟了全新路径。

在人工智能飞速发展的今天,各种AI模型层出不穷,每个都声称自己比前辈更强大。然而现实中,我们该如何真正了解这些AI的优缺点呢?传统的评估方法就像是让学生参加标准化考试,虽然能得到一个分数,但很难告诉我们学生具体哪里薄弱,更别说如何针对性地改进了。研究团队面临的正是这样一个挑战:如何为AI模型建立一个真正有效的"体检系统"。

现有的AI评估就像是医生只看体温和血压就给病人下诊断一样粗糙。虽然我们能知道某个AI在图像识别测试中得了85分,另一个得了90分,但这并不能告诉我们第一个AI具体在什么地方表现不佳,也不知道如何帮它改进。更令人困扰的是,有时候一个看起来更大更强的AI模型在某些特定情况下反而不如小模型表现好,这就像是让奥运冠军和业余选手比赛,结果冠军在某些项目上居然败北了。

为了解决这个问题,研究团队开发了一套名为AuditDM的创新系统。这套系统的核心思路就像是培养一位专业的"AI审计师",它的工作就是专门挖掘目标AI的各种弱点和盲区。这个审计师不是简单地给AI出几道题目,而是会精心设计各种刁钻的问题和图片,专门找那些能让目标AI出错的场景。

具体来说,这个审计系统的工作方式颇有些像一个经验丰富的老师在给学生出考试题。这位老师不会随机出题,而是会仔细观察学生以往的错误模式,然后专门设计一些能暴露学生知识盲点的题目。同样地,AuditDM会分析目标AI模型的行为模式,然后生成专门的问题和图片来测试这个AI的薄弱环节。

这个审计师的独特之处在于它能够从三个方面来"刁难"目标AI。首先,它会针对原始图片提出一些特别挑战性的问题,这些问题往往涉及图片中的细节或者需要复杂推理的内容。其次,它会指导图像生成模型创造一些经过精心设计的新图片,这些图片看起来很正常,但包含了容易让AI出错的元素。最后,它还能对现有图片进行微妙的编辑,比如改变一些看似无关紧要的细节,然后观察这些变化是否会让AI给出完全不同的答案。

研究团队在训练这个审计师时采用了一种叫做强化学习的方法,这就像是训练一只专门找茬的狗。每当审计师成功找到了能让目标AI出错的例子时,就会得到奖励,这样它就会越来越善于发现AI的弱点。为了确保审计师找到的确实是真正的问题而不是无意义的错误,研究团队还设置了一个由多个AI组成的"评判团"来验证每个发现的失败案例是否合理。

当研究团队把这套系统应用到最新的AI模型上时,发现了许多令人意外的结果。比如说,他们测试了Google的PaliGemma2家族模型,发现了超过20种不同类型的失败模式。更有趣的是,他们发现在某些特定任务上,较大的28B参数模型竟然表现得不如小巧的3B模型。

这些发现就像是医生通过全面体检发现了一些之前被忽视的健康问题。比如,研究发现大模型在避免幻觉、颜色识别和数数方面反而更容易出错,而小模型在理解物体关系和情感识别方面存在明显不足。这种发现对于AI开发者来说极其宝贵,因为它让他们知道应该在哪些方面重点改进自己的模型。

更令人兴奋的是,这个审计系统不仅能发现问题,还能帮助解决问题。一旦审计师找到了AI的弱点,研究团队就可以利用这些发现来生成大量针对性的训练数据。这就像是一个私人教练不仅告诉你哪里做得不好,还为你制定了专门的训练计划。

实验结果证明了这种方法的有效性。当研究团队用审计师发现的弱点数据来重新训练AI模型时,几乎在所有测试中都看到了显著的改进。在某些情况下,经过这种针对性训练的小模型甚至能超越原本更大的模型。这就像是一个经过针对性训练的业余选手在特定项目上战胜了职业选手。

这项研究的重要意义不仅在于提供了一种新的AI评估方法,更在于它为AI的持续改进开辟了一条新路径。在传统的AI开发中,研究人员主要依靠增加数据量和模型规模来提升性能,但随着数据资源越来越稀缺,这种粗放式的改进方法正在遇到瓶颈。而AuditDM提供的精准诊断和针对性改进方法,就像是从"大水漫灌"转向"精准滴灌"的农业革命。

从技术实现的角度来看,整个系统的核心在于如何让审计师学会生成那些能够最大化暴露目标AI弱点的内容。研究团队采用的方法是让审计师不断尝试生成各种问题和图片,然后观察这些内容是否能让目标AI与参考模型产生分歧。当分歧越大时,审计师就获得越多的奖励,从而学会专门寻找那些容易引起争议的"边界案例"。

这种方法的巧妙之处在于它不需要人工标注大量的训练数据。传统的AI训练往往需要海量的人工标注数据,这既昂贵又耗时。而AuditDM通过让不同AI模型之间相互"对话"来自动发现问题,大大降低了对人工标注的依赖。这就像是让一群医生互相讨论病例,通过他们的分歧来发现诊断中的疑难问题。

在具体的实验中,研究团队发现了许多有趣的现象。例如,当审计师对图片进行微妙的编辑后,比如将一个人的领带换成围巾,或者把滑雪板换成徒步靴,AI模型的回答就会发生意想不到的变化。这些发现揭示了AI模型在处理视觉信息时的脆弱性,它们往往会被一些与任务无关的细节所误导。

更深层次的发现是,不同规模的AI模型似乎有着不同的"性格特点"。大模型虽然在很多任务上表现出色,但在某些特定情况下会表现出过度自信的倾向,容易产生幻觉或者过度解读图像中的信息。而小模型虽然整体能力有限,但在某些简单任务上反而更加稳定可靠。这种发现对于在实际应用中选择合适的AI模型具有重要的指导意义。

研究团队还发现,通过这种审计方法发现的问题具有很好的可解释性。与传统的黑箱测试不同,AuditDM能够生成具体的失败案例,每个案例都清楚地展示了AI在什么情况下会出错,以及出错的具体表现。这就像是给AI做了一次全面的"体检报告",不仅告诉你哪里有问题,还清楚地说明了问题的具体表现和严重程度。

从实际应用的角度来看,这项技术对于AI系统的部署和维护具有重要价值。在实际应用中,AI系统往往会遇到各种意想不到的情况,而传统的测试方法很难提前发现所有潜在问题。而AuditDM提供的主动式问题发现机制,就像是为AI系统配备了一个专业的"压力测试员",能够在部署前就发现和解决潜在的问题。

值得注意的是,这种审计方法还具有很好的通用性。研究团队在不同类型的AI模型上都验证了这种方法的有效性,包括PaliGemma2和Gemma3等多个主流模型家族。这表明AuditDM不是针对特定模型的定制化解决方案,而是一种可以广泛应用的通用方法。

当然,这项技术也面临一些挑战和限制。首先是计算成本的问题,因为整个审计过程需要大量的模型推理和图像生成,在大规模应用时可能会遇到资源瓶颈。其次是在某些特殊任务上,比如需要精确标注的目标检测任务,自动生成的训练数据可能存在标注不准确的问题。

尽管存在这些挑战,但AuditDM所代表的"AI审计AI"的思路无疑为人工智能的发展开辟了新的方向。随着AI系统变得越来越复杂,传统的人工测试和评估方法已经难以跟上技术发展的步伐。而利用AI系统本身的能力来发现和改进AI的不足,不仅提高了效率,还能发现人类可能忽视的细微问题。

这项研究的意义还体现在它为AI安全和可靠性研究提供了新的工具。在AI系统越来越多地应用于关键领域的今天,如何确保这些系统的安全可靠变得至关重要。AuditDM提供的主动式风险发现机制,就像是为AI系统装上了"安全监控器",能够持续监测和改进系统的可靠性。

展望未来,这种AI审计技术可能会成为AI开发流程中的标准环节,就像软件开发中的单元测试和集成测试一样不可缺少。每当开发出新的AI模型时,都可能需要经过这样的审计过程,确保模型在各种情况下都能稳定可靠地工作。

说到底,AuditDM的核心价值在于它改变了我们对AI评估的认知。从被动的标准化测试转向主动的弱点挖掘,从简单的分数比较转向深入的行为分析,这种转变不仅提高了AI评估的准确性和实用性,更为AI的持续改进提供了科学的方法论。在AI技术日新月异的今天,这样的"AI医生"无疑将成为推动技术进步的重要力量。对于普通用户来说,这意味着我们未来使用的AI产品将更加智能、更加可靠,也更加值得信任。

Q&A

Q1:AuditDM系统是什么,它是如何工作的?

A:AuditDM是Google和约翰霍普金斯大学开发的AI审计系统,专门用来发现其他AI模型的弱点。它就像一个专业的"AI审计师",会精心设计各种挑战性的问题和图片来测试目标AI,通过观察AI在什么情况下会出错来找出它的盲点和薄弱环节。

Q2:这个审计系统发现了哪些有趣的AI缺陷?

A:研究发现了很多意外的现象,比如大的AI模型在避免幻觉、颜色识别和数数方面反而比小模型更容易出错。同时发现AI模型很容易被图片中无关的细节误导,比如仅仅把一个人的领带换成围巾就可能让AI给出完全不同的答案。

Q3:这项技术对普通用户有什么实际意义?

A:这项技术意味着未来的AI产品会更加可靠和智能。通过这种审计方法,AI开发者可以提前发现和修复各种潜在问题,让AI在实际应用中表现更稳定。对用户来说,这就像给AI装上了"质检系统",确保我们使用的AI产品更值得信任。

来源:https://www.163.com/dy/article/KHDP5DK50511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题
业界动态
谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题

谷歌TurboQuant算法遭中国博士后质疑,论文争议点深度剖析 近日,AI模型压缩领域发生了一场引人关注的学术风波。事件的起因是谷歌研究院在3月25日重磅发布的全新极端压缩算法TurboQuant。该技术旨在破解大语言模型推理过程中的核心瓶颈——键值缓存(KV Cache)所导致的庞大内存占用问题

热心网友
04.01
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵
AI
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵

新智元报道编辑:倾倾【新智元导读】全世界都在等ASI降临,OpenAI却在年初悄悄上线广告位。9亿用户撑不起数百亿美元的算力账单,智力正在贬值,神仙也得下凡赚钱!2025年底,一份名为ChatGPT

热心网友
04.01
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程
业界动态
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程

谷歌Willow量子处理器启动限时早期访问,加速商业应用落地 近期,谷歌在量子计算领域的连续动作引发了业界广泛关注,其商业化节奏明显提速。从中性原子计算路径的探索,到后量子加密技术部署时间表的提前,一系列进展均显示出强烈的推进意图。而最新发布的 Willow 量子处理器限量早期访问计划,更被视为其从

热心网友
04.01
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等
科技数码
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等

谷歌 Pixel 手机将推“通勤模式”:智能优化公共交通出行体验 科技领域的最新动向显示,谷歌即将为其 Pixel 智能手机引入一项备受期待的新功能——“通勤模式”(Transit Mode)。该功能旨在深度优化用户在乘坐地铁、公交等公共交通工具时的手机使用体验,帮助乘客在嘈杂或拥挤的环境中更好地管

热心网友
04.01
谷歌翻译AI外语外教实测:每日学习督导机制详解
手机教程
谷歌翻译AI外语外教实测:每日学习督导机制详解

12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,通过拆解谷歌翻译(Google Translate)安卓版 v9 29 安装包代码,发现了多项

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

判断流浪动物是否友好时以下哪种信号是错误的
游戏攻略
判断流浪动物是否友好时以下哪种信号是错误的

支付宝蚂蚁庄园2026年4月4日今日最新答案揭晓 今日蚂蚁庄园小课堂的首道题目是:在判断流浪动物是否友善时,以下哪一种信号解读是不正确的? A、狗狗摇尾巴就一定代表友好 B、瞳孔放大通常表示恐惧 正确答案 狗狗摇尾巴就一定代表友好 详细解析 许多人存在一个普遍误区,认为犬类摇尾巴一定是开心和亲近的信

热心网友
04.04
他趣如何结婚
手机教程
他趣如何结婚

他趣:如何从真诚交友顺利走向婚姻殿堂 他趣并非直接促成婚姻的魔法钥匙,但它确实扮演着至关重要的角色——为众多单身人士搭建了一座从线上认识到线下相恋,最终携手步入婚姻的可靠桥梁。这个平台汇聚了真实且有婚恋意图的用户,让原本可能无缘相遇的两个人,有了相识、相知直至相守的珍贵机会。 第一步:完善个人资料,

热心网友
04.04
洛克王国世界必入手宠物与技能搭配推荐指南
游戏攻略
洛克王国世界必入手宠物与技能搭配推荐指南

洛克王国世界开荒攻略:首日必抓精灵与阵容搭配详解 《洛克王国世界》开服第一天,所有训练师的核心目标非常明确:高效利用初期时间,组建一套既能轻松探索地图,又能平稳应对各类战斗的精灵队伍。选择正确的开荒阵容,能让你的冒险之旅事半功倍;若选择不当,则可能陷入被动,浪费宝贵资源。那么,哪些宠物是玩家公认的“

热心网友
04.04
洛克王国世界精灵克制关系指南
游戏攻略
洛克王国世界精灵克制关系指南

洛克王国全属性克制关系解析:掌握十八系胜负关键 进入洛克王国,你将探索一个由18种精灵属性构成的丰富对战世界:普通、草、火、水、光、地、冰、龙、电、毒、虫、武、翼、萌、幽、恶、机械与幻系。各属性之间存在着复杂而精准的克制与抵抗规则,这对新手玩家而言可能显得纷繁复杂。本文旨在全面解析洛克王国属性克制表

热心网友
04.04
佣兵小镇乔丝琳怎么获得?佣兵小镇乔丝琳养成攻略
游戏攻略
佣兵小镇乔丝琳怎么获得?佣兵小镇乔丝琳养成攻略

光系核心英雄乔丝琳养成全攻略:从获取到毕业的深度指南 一、乔丝琳获取途径与资源投入规划 作为光系核心输出英雄,乔丝琳的获取时机非常明确,她将在服务器开区第3天通过专属转盘活动正式登场。玩家需要为其规划清晰的培养路径:起步品质建议至少达到红2,而终极目标则是彩4完全体毕业。 大额投入方案(适合追求极速

热心网友
04.04