关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2910人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汪小菲晒儿子正面照

古希腊掌管月桂的神 浏览 2783

朱一龙梁家辉一出手,若不出意外,这部国产大片估计得“封神”

娱乐圈笔娱君 浏览 2087

PPC平台打造 全新奥迪Q5L高功率版年内上市

车质网 浏览 2836

司乘天平上的滴滴

远川研究所 浏览 2804

44岁阿娇自曝手抖出肝不太好,已戒酒一年多

小咪侃娱圈 浏览 2637

有魄力!首次先发的向余望等4人,此前出场时间都小于90分钟

懂球帝 浏览 1628

媒体:丢大人了 特朗普在航母上演讲巨幅海报后有问题

枢密院十号 浏览 5469

独立研究者破解扩散模型的最佳预测目标之谜

科技行者 浏览 1373

岛内民调:63%台湾民众不愿自身或家人上战场

海峡导报社 浏览 1826

历史首次,“三桶油”收盘全部涨停!

红星资本局 浏览 852

股市:更大的想象空间来了

小白读财经 浏览 1430

热度破5000!李行亮麦琳刚走,又来2大活宝,芒果台又出王炸综艺

娱乐圈笔娱君 浏览 2717

知名女演员邢菲被曝光恋情,更多细节透出

乐悠悠娱乐 浏览 2552

长沙不雅视频女医生同款睡裙22万人买 幕后偷拍者披露

壹月情感 浏览 6747

北京79-73力克浙江,陈盈骏18分,杰曼23+5,吴前7中1

懂球帝 浏览 1632

“满200减20”变“满200减200”,豆瓣App致歉:将对所有异常订单进行自动退款

扬子晚报 浏览 868

清华等联合开发"甜蜜点学习"算法:AI智能体训练效率提升2.5倍

科技行者 浏览 1426

中网女单第三轮利斯挑落莱巴金娜

体坛周报 浏览 3325

北京国安迎来成立33周年生日,海报中工体和球迷交相辉映

懂球帝 浏览 1867

长城汽车正式取消"大小周" 老员工泪目:盼了30年

大风新闻 浏览 7740

小萨博尼斯适合勇士吗? 三大缺点阻碍他加盟

仰卧撑FTUer 浏览 1915
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1