关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4657人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

北京日报客户端 浏览 7755

寻找隐形冠军|意想不到的它

海外网 浏览 3192

极狐乔心昱:北汽新能源行业首个实现L3-L4自动驾驶技术全覆盖

IT之家 浏览 3366

2026款奥迪Q6上市!售46.76万起 车长5099mm比Q7还大

念寒车评 浏览 3414

仅2.2万,王晶贺岁档新片票房崩塌,我感慨:观众不再为情怀买单

靠谱电影君 浏览 3289

最喜欢的对手,特罗萨德职业生涯对利物浦进球最多

懂球帝 浏览 3405

王思聪带懒懒看演唱会,舞台前对美女猛拍照

鑫鑫说说 浏览 3909

工程师崩溃!某车企研发开始试行“两班倒”!

明镜pro 浏览 4403

特朗普试图重建长期关税壁垒 民主党将阻止

华尔街见闻官方 浏览 2815

韩剧女神,被吐槽“断崖式衰老”?

寻艺 浏览 3269

多给2分钟来背锅?大帝25分钟20+6丢绝杀 马克西才该为失利担责

颜小白的篮球梦 浏览 4302

吴建豪:一位复古“老餮”的用心律动与生命赤诚

三石一声 浏览 3522

上海U20男足进全运8强,徐根宝:出线是第一位,成绩是硬道理

懂球帝 浏览 4303

万亿“宁王”,又出手

中国基金报 浏览 4355

曲协表态仅6天,郭德纲担心的事还是发生

科学发掘 浏览 3796

西北大学教授刘建妮 被撤销“中国青年女科学家奖”

每日经济新闻 浏览 26932

技嘉X870E X3D超级冰雕主板图赏:超大彩屏,五彩斑斓的白

IT之家 浏览 4009

赛力斯联手字节打造"赛豆" 首款跨界车年内推出

网易汽车 浏览 438

又有8个大V账号被封!雪球一日连发“两弹”,“游资战法”等遭重点打击

第一财经资讯 浏览 3341

今年最好看的5条裙子,配“这双鞋”又美又气质!

LinkFashion 浏览 1783

2026春夏一定要拥有的6只包,好看又百搭

LinkFashion 浏览 2506
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1