人工智能大语言模型在各个领域的广泛应用从内容创作、客户服务到教育和软件开发,这些模型的变革潜力日益凸显。确保其安全性、鲁棒性已成为一个至关重要的问题。特别是"越狱攻击"通过精心设计的提示词绕过安全约束并引发有害、偏见或不道德输出的对抗性攻击,已经成为大语言模型安全领域的系统性和严峻的挑战。
北京前瞻人工智能安全与治理研究院、人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理中心联合团队正式发布灵御(PandaGuard)大模型安全攻防评估平台,该平台创新性地采用多智能体系统建模方法对越狱攻击进行系统性评估。该框架在现有研究基础上实现了重要突破,为构建安全可控的人工智能生态提供了重要保障。
6月5日,2025全球数字经济大会(GDEC2025)数字安全主论坛暨2025北京网络安全大会(BCS2025)召开,前瞻研究院院长、北京市重点实验室主任曾毅受邀发表主旨演讲,介绍灵御平台及从人工智能安全到安全人工智能的发展战略。

灵御(PandaGuard)平台通过将大语言模型越狱安全概念化为多智能体系统来解决这些挑战。在这个系统中,攻击者、防御者、目标模型和安全判断器相互作用。框架抽象并模块化了每个组件,支持即插即用的实验,包含19种攻击算法、12种防御机制和多种判断策略,对49个开源和闭源大语言模型安全性进行了系统化评估。灵御平台的这种设计促进了可控的、可重现的评估,并使得能够对模型安全中的跨组件权衡进行深度分析。平台实践证明,世界上提出的所有安全护栏没有一个可以防护住所有的攻击算法,也没有一个攻击算法可以突破所有的安全护栏。在人工智能安全防护领域还有很长的路要走。

研究发现,不同时间发布的人工智能大模型并没有随着模型能力的提升而同时获得模型的安全性,近期发布的国内外能力更强大的人工智能模型安全性并没有展现出显著的优势。一些较新的模型在某些安全指标上可能不如早期版本,这揭示了一个重要事实:安全性能的提升需要专门的优化投入,而不是模型能力提高的自然副产品。我国的人工智能大模型安全性方面总体处于中等水平,特别是针对很多新近发布的大模型,针对越狱攻击等方面的安全性上还有较大提升空间。曾毅院长说:现在国内外没有一个绝对安全的人工智能大模型,但通过类似灵御平台这样的AI安全护栏加固,每一个大模型都可以做到更安全。

秉承开放合作的理念,灵御人工智能安全攻防平台的核心框架已开源开放,研究团队发布了完整的代码、配置和评估结果,以支持大语言模型安全领域的透明和可重现研究。这种开放态度不仅有助于学术界的进一步研究,也为产业界的实际应用提供了便利。
北京前瞻人工智能安全与治理研究院、人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理中心联合团队希望与产业界共同打造安全治理生态,将通过政产研协作的方式继续致力于扩展灵御人工智能安全攻防评估平台与基准,服务于产业、科研与政府在人工智能安全治理领域的需求与应用。
在大会的主旨演讲结束的时候,曾毅院长总结到:“安全与治理是人工智能核心能力,将加速人工智能稳健发展与应用。我们的前沿研究表明,如果把安全与模型能力比作鱼与熊掌,实则可以兼得。没有安全治理框架的人工智能不仅是没有“刹车”,更是没有“方向盘”。
免责声明:本文不构成任何商业建议,投资有风险,选择需谨慎!本站发布的图文一切为分享交流,传播正能量,此文不保证数据的准确性,内容仅供参考
关键词:
灵御(PandaGuard) 人工智能大模型安全攻防评估平台正式发布:人工智能北京力量护...
人工智能大语言模型在各个领域的广泛应用从内容创作、客户服务到教育和软件开发,这些模型的变革潜力日益凸显。确保其安全性、鲁棒性已成为
第三届中国观赏石网络博览会评选金奖奇石第一期活动正式启动了
由中国观赏石网络博览会组委会,中国奇石展网主办,河南京皓网络科技有限公司、邓州市观赏石协会承办的2020第三届中国观赏石网络博览会评选
灵御(PandaGuard) 人工智能大模型安全攻防评估平台正式发布:人工智能北京力量护...
人工智能大语言模型在各个领域的广...
川酒集团官方定制小程序焕新上线 开启白酒个性化定制新体验
4类定制、2000多个组合,满足12种...
欧洲央行再次下调三大关键利率
6月5日,欧洲中央银行副行长路易斯...
足球——世预赛:中国队不敌印尼队
6月5日,中国队球员张玉宁(左三)在...
2025上海国际碳中和博览会开幕
6月5日,工作人员(右)在向参观者介...
关注眼健康 迎接爱眼日
6月5日,在江苏省兴化市景范学校,...
取得关键资质!AES100发动机获颁生产许可证
这是6月5日在AES100发动机研制工作...
葡萄牙新政府宣誓就职
6月5日,在葡萄牙里斯本阿茹达宫,...
天问二号探测器在轨飞行正常 圆形柔性太阳翼展开图片发布
截至6月6日上午,天问二号探测器已...
2025北京智源大会开幕 智源发布“悟界”系列大模型
2025年6月6日,第七届北京智源大会...
各地全力保障 暖心护航高考
6月4日,河南省沁阳市启动爱心助考...
泉州公路系统应急演练 筑牢防汛安全屏障
为全面提升公路系统防灾减灾救灾能...
福建安溪:校地双向赋能 产教融合打造县域经济新样本
风从农大来,势从安溪起。不久前,...
警银联动--工行三明将乐支行成功拦截万元被骗资金守护百姓“钱袋子”
近日,将乐县政府打击治理电信网络...