灵御大模型安全攻防评估平台发布,北京护航人工智能安全发展
2025-06-05 14:22

订阅
新京报贝壳财经讯(记者罗亦丹)6月5日,2025全球数字经济大会(GDEC 2025)数字安全主论坛暨2025北京网络安全大会(BCS 2025)召开, 前瞻研究院院长、北京市重点实验室主任曾毅受邀发表主旨演讲,介绍了灵御平台及从人工智能安全到安全人工智能的发展战略。
据了解,当前在针对大模型领域的安全攻防中,成功的越狱攻击能够触发有毒语言、错误信息甚至非法指令,从根本上破坏最先进的人工智能系统中内置的安全防护措施。
针对这一问题,北京前瞻人工智能安全与治理研究院、人工智能安全与超级对齐北京市重点实验室、中国科学院自动化研究所人工智能伦理与治理中心联合团队正式发布灵御(PandaGuard)大模型安全攻防评估平台,该平台创新性地采用多智能体系统建模方法对越狱攻击进行系统性评估。该框架在现有研究基础上实现了重要突破,为构建安全可控的人工智能生态提供了重要保障。
曾毅表示,没有安全治理框架的人工智能不仅没有“刹车”,更是没有“方向盘”。安全与治理是人工智能的核心能力,将加速人工智能稳健发展与应用。
校对 王心
来阅读我的更多文章吧

罗亦丹
新京报记者
记者主页