OpenAI与蚂蚁集团联手应对AI大模型安全新挑战
去年年初,ChatGPT的横空出世,彻底点燃了新一波人工智能的浪潮。人们在惊叹大模型重塑千行百业的巨大潜力时,一个无法回避的现实也摆在眼前:新技术创造了前所未有的机遇,同时也带来了全新的、更复杂的安全风险。
想想看,基于大模型高效生成内容的能力,黑客发动攻击的成本和门槛被大幅拉低,更密集、更频繁的攻击将成为常态;利用生成式AI在多语言整合与信息合成上的优势,伪造一个以假乱真的骗局所需的时间和资源急剧减少,网络钓鱼的规模与效率可能呈指数级提升;再加上老生常谈却始终致命的数据泄露问题——企业的核心安全与用户隐私,正被置于前所未有的威胁之中。
这绝非危言耸听。如果对大模型的安全问题放任不管,任其“野蛮生长”,后果将不堪设想。
如今,经过一年多“百模大战”的洗礼,行业已从技术狂欢步入务实阶段。大模型正加速与各类实际场景深度融合,走进千行百业。因此,如何积极应对持续演进的大模型所带来的安全挑战,在传统安全体系的基础上进行技术与方法的革新,构建真正安全、可信的大模型,已成为全球顶尖厂商和从业者共同关注的焦点。
WDTA就大模型安全发布国际标准,AI安全评估测试进入新基准
就在今年4月16日,于瑞士日内瓦召开的第27届联合国科技大会期间,一场以“塑造AI的未来”为主题的边会吸引了全球目光。会上,世界数字技术院(WDTA)发布了一系列突破性成果,其中最引人注目的便是《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

世界数字技术院(WDTA)是一家在日内瓦注册的国际非政府组织,遵循联合国指导框架,致力于在全球范围内推动数字技术发展与国际合作。其核心倡议之一“AI STR(安全、可信、负责任)计划”,目标正是确保人工智能系统的安全性、可信性与责任性。蚂蚁集团、华&为、科大讯飞、国际数据空间协会(IDSA)等均是该计划的成员单位。
此次发布的两项标准,意义非同小可。这是国际组织首次在大模型安全领域定下国际标尺,标志着全球人工智能安全评估与测试迈入了一个全新的基准阶段。
据了解,这两项标准凝聚了全球产学研界的智慧,由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家机构的众多专家学者共同编制完成。
其中,《生成式人工智能应用安全测试标准》由WDTA牵头,它构建了一个综合性的框架,专门用于测试和验证下游人工智能应用,特别是那些基于大语言模型构建的应用的安全性。该标准定义了从基础模型选择、嵌入与向量数据库、检索增强生成(RAG)到应用运行时安全等每一层架构的测试验证范围,旨在确保AI应用的每个环节都经过严格的安全与合规评估,从而在整个生命周期内抵御各类威胁与漏洞。
另一项《大语言模型安全测试方法》则由蚂蚁集团牵头编制。与前者聚焦“应用”不同,这项《测试方法》直指大模型本身,为其安全性评估提供了一套全面、严谨且极具实操性的结构性方案。它明确了大语言模型的安全风险分类、攻击分类与分级方法,并率先提出了四类不同攻击强度的攻击手法分类标准,同时提供了严格的评估指标与测试流程。这套方法能有效应对大模型固有的复杂性,测试其抵御恶意攻击的能力,帮助开发者和组织识别、缓解潜在漏洞,最终提升基于大语言模型的AI系统的安全性与可靠性。
聚焦大模型安全风险,筑牢防线刻不容缓
WDTA人工智能安全可信负责任工作组组长黄连金在会上指出,这两项标准汇集了全球AI安全领域的专家智慧,填补了大语言模型和生成式AI应用在安全测试领域的空白。它为业界提供了统一的测试框架和明确的方法,对于提升AI系统安全性、促进技术负责任发展、增强公众信任至关重要。
诚如所言,标准的制定是集体智慧的结晶。而放眼产业界,从OpenAI、蚂蚁集团、科大讯飞等大模型厂商,到谷歌、微软、英伟达等底层技术巨头,乃至360、奇安信、深信服等专业安全公司,都在打造安全可信大模型的征途上进行了长期而深入的探索。
例如,作为ChatGPT和GPT-4的创造者,OpenAI早在去年7月就成立了由联合创始人领衔的“Superalignment”团队,目标直指用AI来监督AI,解决复杂的模型对齐问题。算力巨头英伟达则在去年4月推出了NeMo Guardrails软件,旨在为AI模型设置安全“护栏”,防止其产生错误事实或涉及有害内容,以应对棘手的“幻觉”难题。
国内方面,安全厂商也在积极行动。今年3月,360发布了360安全大模型3.0,奇安信、深信服等也相继推出了各自的AI+安全产品,在安全大模型的落地应用上展开了深度探索。
而作为此次《大语言模型安全测试方法》的牵头编制方,蚂蚁集团在安全领域的积淀尤为深厚。从保障亿万用户“钱袋子”安全的支付宝起步,蚂蚁深知“可信”二字的千钧重量。自2015年起,集团便持续投入可信AI技术研究,目前已建立起一套完整的大模型综合安全治理体系。
去年9月,蚂蚁集团发布了业界首个大模型安全一体化解决方案“蚁天鉴”,包含大模型安全检测平台“蚁鉴”和风险防御平台“天鉴”,覆盖AIGC安全评测、大模型智能风控、AI鲁棒性检测等多个关键环节。此次参与制定的国际标准,正是基于“蚁天鉴”体系的应用实践,与全球生态伙伴共同打磨的成果。
不仅如此,蚂蚁集团在公司内部设立了科技伦理委员会及专门团队,对所有AI产品进行严格的科技伦理评测。去年2月,更在内部委员会基础上,成立了外部科技伦理顾问委员会,定期汇聚学界与业界的顶尖专家,共议生成式AI治理与大模型风险管理,其目标始终清晰:打造“安全、合规、可控、可靠”的大模型。

正如蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会上的发言所言:“生成式AI将释放巨大的生产力,但也要对它带来的新风险高度警惕。”
大型科技公司理应在促进生成式AI安全与负责任的发展中扮演关键角色。利用其资源、专业知识与行业影响力,推动最佳实践落地,构建一个将安全、隐私、可靠与伦理置于优先地位的生态系统。这包括制定清晰的行业标准与指南,为开发者提供明确方向;也包括投入研发并开放保障AI安全的工具,推动形成产业协同共治的良性局面。
当下,大模型已步入规模化落地应用的关键期。确保其安全、可信、可靠,不再是某一家公司独自面对的课题,而是需要整个产业界携手应对的时代挑战。唯有群策群力,方能共同迎接AI新时代,创造一个更美好的未来。
相关攻略
近日,科技领域迎来一则充满人文关怀的喜讯:盛大集团旗下EverMind正式宣布,将孵化一款名为“ReUnite(重逢)”的AI记忆寻人公益平台。该产品的核心使命,是依托先进的大模型长期记忆技术,为全球离散家庭构建一座高效、精准的数字寻亲桥梁。 这一项目的起源颇具故事性,堪称“民间智慧闪耀”。它诞生于
这项研究由三星人工智能蒙特利尔实验室、米拉魁北克人工智能研究院、蒙特利尔理工学院、蒙特利尔大学、麦吉尔大学及三星韩国人工智能中心联合完成,并于2026年4月在预印本平台arXiv上发布,论文编号为arXiv:2604 04356v1。 当前AI部署面临一个核心挑战:随着顶级大语言模型的参数规模膨胀至
这项由东北大学Khoury计算机科学学院与ServiceNow研究院、Mila实验室合作完成的研究,为我们理解大语言模型的“思考”方式,投下了一颗震撼弹。论文发表于2026年4月,编号为arXiv:2604 01202v2,其核心发现挑战了我们对AI推理过程的传统认知。 向ChatGPT或Claud
这项由微软研究院与清华大学联合发布的突破性研究成果,于2026年4月正式公开,论文编号为arXiv:2604 01220v1。它针对当前人工智能发展中的一个核心挑战——如何在提升模型能力的同时控制资源消耗——提出了一个极具创新性的解决方案。 如今,手机AI助手已融入日常生活,但你是否想过:能否让AI
在人工智能技术快速迭代的当下,大型语言模型的功能日益强大,但一个普遍存在的挑战也浮出水面:面对超长文本输入时,模型的处理速度会大幅降低,运算成本急剧增加。这一问题的根源,在于模型核心的“注意力机制”计算复杂度。 我们可以将注意力机制比作一位极其细致的图书管理员。每当接收到一个新词或新句子,这位管理员
热门专题
热门推荐
华硕在ROGDAY2026上发布了枪神10X整机,首次搭载三颗可联动显示的全息光显风扇,外观极具未来感。其核心配置顶级,采用AMD锐龙99950X3D2处理器、ROGRTX5080显卡、64GB内存及4TBSSD,并配备高效三区独立散热系统,定价69999元。
智能门锁领域迎来重磅新品。知名品牌鹿客近期于京东平台正式发售其旗舰型号V3 Max智能门锁,该产品凭借创新的隔空无线充电技术与先进的AI视觉识别系统引发市场关注。官方定价为3572元,在部分参与促销活动的地区,消费者可享受补贴,最终入手价有望低至2799元,性价比优势显著。 鹿客V3 Max在视觉安
在备受瞩目的ROG DAY 2026广州站活动中,华硕重磅发布了其新一代高性能游戏笔记本电脑——ROG魔霸10系列。该系列包含16英寸的魔霸10与屏幕更大的18英寸魔霸10 Plus两款机型,旨在为硬核玩家带来顶级的游戏体验。 ROG魔霸10系列的硬件配置堪称顶级。处理器方面,用户最高可选择搭载AM
5月15日,小米官方正式公布了小米手环10 Pro的完整配置信息。作为新一代旗舰手环,它在健康监测精准度、运动功能专业度以及佩戴舒适度上均实现了显著突破,为用户带来了更全面的智能穿戴体验。 小米手环10 Pro 健康监测:精度与维度的双重跃升 本次升级的核心在于健康监测能力的全面进化。小米手环10
金士顿扩展其可超频的ECCRDIMM内存系列,新增高达7600MT s型号。其中高速型号采用全新铝制散热马甲,提升散热效率以保障高负载下的稳定运行。该系列同时支持ECC校验与超频,兼顾性能与数据完整性,适用于AI计算、工程仿真等高要求专业场景。





