关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4654人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

吴速玲曝儿子Joe是恋爱脑

韩小娱 浏览 3418

米兰未来3-0斯坎佐罗夏特,伊布儿子为米兰未来首开记录

懂球帝 浏览 5107

华为Sound X获HarmonyOS 6.0 Beta升级,新增AI搜歌等功能

IT之家 浏览 3720

徐洁儿浪姐的“三字诀”,稳、飒、燃

醉卧浮生 浏览 1778

杨幂刘亦菲后同桌零互动,深扒两人闹僵原因

萌神木木 浏览 3587

歼-15舰载战斗机呼啸升空 看战机高速穿山谷

环球网资讯 浏览 5133

杜兰特与前队友布鲁斯-布朗互喷,后者赛后:杜兰特越界了

懂球帝 浏览 3649

城区油耗2L级 长安逸动/CS75 PLUS蓝鲸超擎抢订价7.99万起

网易汽车 浏览 1395

从头部驱动到生态共建,初瑞雪重构直播团队新范式

时代周报 浏览 3668

将于12月5日上市 别克至境世家广州车展发布

网易汽车 浏览 4084

黄仁勋这波杀疯了 NVIDIA RTX Spark首测跑分:碾压苹果M5 54%!

快科技 浏览 392

商务部回应审查Meta收购Manus:须符合中国法律法规

财联社 浏览 14068

离婚2个月,54岁的李亚鹏再迎“噩耗”

洲洲影视娱评 浏览 3379

加码中国“确定性”

国际金融报 浏览 4584

牛弹琴:180度转弯 和特朗普"你死我活"的狠人去了白宫

北京日报客户端 浏览 5241

船员在公海杀同事6个月后跳海潜逃 中国海警跨境捉拿

扬子晚报 浏览 7686

官媒揭开70岁潘虹的真实现状,董卿说的一点没错

手工制作阿歼 浏览 3409

“内鬼”赶走老板!300多亿中国资产,要被抢了

大猫财经Pro 浏览 4459

道指重挫800点,IBM跌超13%,白银期货涨超7%,加密货币超16万人爆仓

21世纪经济报道 浏览 2778

没听说过1.6T光模块测试公司,Q1利润增速超500%! | 0421

虎嗅APP 浏览 1497

特朗普称庞大舰队驶向伊朗 已超委内瑞拉

财联社 浏览 3189
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1