关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4655人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

财经早餐:多地明确取消35岁考编限制;商务部回应美方威胁加征100%关税

网易财经 浏览 4525

近期石柯社媒频繁更新?他已签约成为杭州致禾文化旗下艺人

懂球帝 浏览 4718

抄底许家印,截胡王健林,这个湖北出来的80后为什么能登顶巅峰?

时评人李文君 浏览 1123

蔡依林演唱会被举报"搞邪教仪式" 30米机械蛇等引争议

扬子晚报 浏览 13316

委内瑞拉代总统:我“受够了”来自华盛顿的命令

扬子晚报 浏览 7797

大厂们掀起春节大战:狂撒10亿红包,只为争夺AI时代「新船票」?

雷科技 浏览 3265

马筱梅首晒孕肚状态绝佳,新生儿性别已暗示,汪小菲家将有新成员

不八卦会死星人 浏览 3393

这几件单品太火了,今年流行的风格都离不开它

LinkFashion 浏览 502

深夜,全线崩跌!发生了什么?

券商中国 浏览 3870

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 20336

乖宝宠物三季报后股价大跌,市值一天缩水近50亿

国际金融报 浏览 4337

东风集团股份资本重组方案落地 实现100%国有控股

网易汽车 浏览 2554

12岁小学生自杀遗书称写不会英语单词 英语老师:委屈

观威海 浏览 13495

今年,北京要把奥林匹克塔打造成机器人餐厅!

北京商报 浏览 3210

真有品味的中年女人,穿衣打扮都有这4个共同点,你中了吗?

静儿时尚达人 浏览 4573

或为增程形式 上汽大众ID.ERA轿车谍照曝光

车质网 浏览 1571

泽连斯基称乌将在柏林和哥本哈根设立武器出口办事处

环球网资讯 浏览 4011

B81 2.0共创版亮相 北京越野开启共创模式新实践

网易汽车 浏览 3360

马塞利诺:虽然很困难,但我们想要击败尤文图斯

懂球帝 浏览 5089

消息称鸿蒙智行均价近 40 万元,每 2 分钟卖一台车对市场冲击大

IT之家 浏览 4327

专家:俄乌“和平计划”应触及冲突发生深层原因

环球网资讯 浏览 3938
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1