关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4450人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高市一度被贴上"安倍女孩"的标签 潜在内阁成员被披露

政知新媒体 浏览 9202

是否以入选英格兰队为目标?勒温:努力训练,顺其自然

懂球帝 浏览 3440

用AI「合成」演员,爱奇艺的新故事翻车了

豹变 浏览 1346

澳国防部称监测到中国舰队活动 外交部回应

财联社 浏览 3682

牛弹琴:2025年最后1个月大戏上演 印度迎最重要客人

北京日报客户端 浏览 35548

冲着陈晓去看《大生意人》,却被满脸狰狞的两位东北跨界演员惊艳

娱乐圈笔娱君 浏览 2973

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 4099

阿拉维斯vs西班牙人:德尼斯-苏亚雷斯、阿莱尼亚首发,鲁文-桑切斯、基克-加西亚出战

懂球帝 浏览 3992

女子遭家暴驾车逃跑致丈夫身亡获刑11年 已上诉称无罪

红星新闻 浏览 8861

今年冬天一定要拥有的6件衣服,谁穿谁好看!

LinkFashion 浏览 3582

痛经的女性,正在猛灌中男“保健酒”

她刊 浏览 3461

在特斯拉model Y和小米 YU7里二选一,怎么选?

蜗牛车志V 浏览 3185

晚点独家丨大定突破今年4万产能上限,新ES8帮蔚来赢得更多机会

晚点LatePost 浏览 4963

芯片制造的终极范式:原子级制造

钛媒体APP 浏览 4150

阿里正在开发开发最新AI编程工具「秒悟Meoo」

三言科技 浏览 2215

轴距进行加长 奥迪A7L旅行版国内谍照曝光

车质网 浏览 3029

三星美国泰勒晶圆厂3月测试EUV光刻机,加速2nm GAA工艺部署

IT之家 浏览 3276

机器人,又杀出了第一股

投资家 浏览 3592

印尼总统:已准备好向加沙派遣维和部队

环球时报国际 浏览 4779

陈水扁屡踩红线后终于"踢铁板" 被指与赖清德关系生变

海峡导报社 浏览 10524

冬季穿衣不用太复杂!内搭选高领、外套选简约款,大方又耐看

静儿时尚达人 浏览 2568
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1