OpenAI与蚂蚁集团联手应对AI大模型安全新挑战

首页

热心网友

转载

2026-05-16

去年年初，ChatGPT的横空出世，彻底点燃了新一波人工智能的浪潮。人们在惊叹大模型重塑千行百业的巨大潜力时，一个无法回避的现实也摆在眼前：新技术创造了前所未有的机遇，同时也带来了全新的、更复杂的安全风险。

想想看，基于大模型高效生成内容的能力，黑客发动攻击的成本和门槛被大幅拉低，更密集、更频繁的攻击将成为常态；利用生成式AI在多语言整合与信息合成上的优势，伪造一个以假乱真的骗局所需的时间和资源急剧减少，网络钓鱼的规模与效率可能呈指数级提升；再加上老生常谈却始终致命的数据泄露问题——企业的核心安全与用户隐私，正被置于前所未有的威胁之中。

这绝非危言耸听。如果对大模型的安全问题放任不管，任其“野蛮生长”，后果将不堪设想。

如今，经过一年多“百模大战”的洗礼，行业已从技术狂欢步入务实阶段。大模型正加速与各类实际场景深度融合，走进千行百业。因此，如何积极应对持续演进的大模型所带来的安全挑战，在传统安全体系的基础上进行技术与方法的革新，构建真正安全、可信的大模型，已成为全球顶尖厂商和从业者共同关注的焦点。

WDTA就大模型安全发布国际标准，AI安全评估测试进入新基准

就在今年4月16日，于瑞士日内瓦召开的第27届联合国科技大会期间，一场以“塑造AI的未来”为主题的边会吸引了全球目光。会上，世界数字技术院（WDTA）发布了一系列突破性成果，其中最引人注目的便是《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。

世界数字技术院（WDTA）是一家在日内瓦注册的国际非政府组织，遵循联合国指导框架，致力于在全球范围内推动数字技术发展与国际合作。其核心倡议之一“AI STR（安全、可信、负责任）计划”，目标正是确保人工智能系统的安全性、可信性与责任性。蚂蚁集团、华&为、科大讯飞、国际数据空间协会(IDSA)等均是该计划的成员单位。

此次发布的两项标准，意义非同小可。这是国际组织首次在大模型安全领域定下国际标尺，标志着全球人工智能安全评估与测试迈入了一个全新的基准阶段。

据了解，这两项标准凝聚了全球产学研界的智慧，由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家机构的众多专家学者共同编制完成。

其中，《生成式人工智能应用安全测试标准》由WDTA牵头，它构建了一个综合性的框架，专门用于测试和验证下游人工智能应用，特别是那些基于大语言模型构建的应用的安全性。该标准定义了从基础模型选择、嵌入与向量数据库、检索增强生成（RAG）到应用运行时安全等每一层架构的测试验证范围，旨在确保AI应用的每个环节都经过严格的安全与合规评估，从而在整个生命周期内抵御各类威胁与漏洞。

另一项《大语言模型安全测试方法》则由蚂蚁集团牵头编制。与前者聚焦“应用”不同，这项《测试方法》直指大模型本身，为其安全性评估提供了一套全面、严谨且极具实操性的结构性方案。它明确了大语言模型的安全风险分类、攻击分类与分级方法，并率先提出了四类不同攻击强度的攻击手法分类标准，同时提供了严格的评估指标与测试流程。这套方法能有效应对大模型固有的复杂性，测试其抵御恶意攻击的能力，帮助开发者和组织识别、缓解潜在漏洞，最终提升基于大语言模型的AI系统的安全性与可靠性。

聚焦大模型安全风险，筑牢防线刻不容缓

WDTA人工智能安全可信负责任工作组组长黄连金在会上指出，这两项标准汇集了全球AI安全领域的专家智慧，填补了大语言模型和生成式AI应用在安全测试领域的空白。它为业界提供了统一的测试框架和明确的方法，对于提升AI系统安全性、促进技术负责任发展、增强公众信任至关重要。

诚如所言，标准的制定是集体智慧的结晶。而放眼产业界，从OpenAI、蚂蚁集团、科大讯飞等大模型厂商，到谷歌、微软、英伟达等底层技术巨头，乃至360、奇安信、深信服等专业安全公司，都在打造安全可信大模型的征途上进行了长期而深入的探索。

例如，作为ChatGPT和GPT-4的创造者，OpenAI早在去年7月就成立了由联合创始人领衔的“Superalignment”团队，目标直指用AI来监督AI，解决复杂的模型对齐问题。算力巨头英伟达则在去年4月推出了NeMo Guardrails软件，旨在为AI模型设置安全“护栏”，防止其产生错误事实或涉及有害内容，以应对棘手的“幻觉”难题。

国内方面，安全厂商也在积极行动。今年3月，360发布了360安全大模型3.0，奇安信、深信服等也相继推出了各自的AI+安全产品，在安全大模型的落地应用上展开了深度探索。

而作为此次《大语言模型安全测试方法》的牵头编制方，蚂蚁集团在安全领域的积淀尤为深厚。从保障亿万用户“钱袋子”安全的支付宝起步，蚂蚁深知“可信”二字的千钧重量。自2015年起，集团便持续投入可信AI技术研究，目前已建立起一套完整的大模型综合安全治理体系。

去年9月，蚂蚁集团发布了业界首个大模型安全一体化解决方案“蚁天鉴”，包含大模型安全检测平台“蚁鉴”和风险防御平台“天鉴”，覆盖AIGC安全评测、大模型智能风控、AI鲁棒性检测等多个关键环节。此次参与制定的国际标准，正是基于“蚁天鉴”体系的应用实践，与全球生态伙伴共同打磨的成果。

不仅如此，蚂蚁集团在公司内部设立了科技伦理委员会及专门团队，对所有AI产品进行严格的科技伦理评测。去年2月，更在内部委员会基础上，成立了外部科技伦理顾问委员会，定期汇聚学界与业界的顶尖专家，共议生成式AI治理与大模型风险管理，其目标始终清晰：打造“安全、合规、可控、可靠”的大模型。

正如蚂蚁集团机器智能部总经理、蚂蚁安全实验室首席科学家王维强在会上的发言所言：“生成式AI将释放巨大的生产力，但也要对它带来的新风险高度警惕。”

大型科技公司理应在促进生成式AI安全与负责任的发展中扮演关键角色。利用其资源、专业知识与行业影响力，推动最佳实践落地，构建一个将安全、隐私、可靠与伦理置于优先地位的生态系统。这包括制定清晰的行业标准与指南，为开发者提供明确方向；也包括投入研发并开放保障AI安全的工具，推动形成产业协同共治的良性局面。

当下，大模型已步入规模化落地应用的关键期。确保其安全、可信、可靠，不再是某一家公司独自面对的课题，而是需要整个产业界携手应对的时代挑战。唯有群策群力，方能共同迎接AI新时代，创造一个更美好的未来。

来源:https://www.leiphone.com/category/ai/HhUyBPf9XaUaEzLD.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：如何复现OpenAI的Scaling Law曲线实现模型高效扩展下一篇：浪潮信息彭震谈AI+：赋能百行千业，驱动生产力变革