关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1053人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

燃烧等离子体国际科学计划项目启动及研究计划发布

中安在线 浏览 404

38岁C罗游艇上冲凉惹关注!肌肉线条清晰如雕刻

译言 浏览 15690

特斯拉中国Model S/X再降价 全系现车可享最高7万价格优惠

界面新闻 浏览 14718

CEO们不再为了流量吹牛,挺好的

汽车公社 浏览 383

【公告精选】梅花生物去年净利增83%,拟10派4元;云南白药:董事长王明辉因个人原因辞职

证券时报e公司 浏览 19066

火车相撞、大桥坍塌,印度基建怎么了

新京报 浏览 17070

日本福岛核事故4549天后核污水流向大海 预计持续30年

澎湃新闻 浏览 87124

中装建设最新股东户数4.05万,被立案受损投资者可索赔

雷达财经 浏览 12802

百果园,崩了!

斑马消费 浏览 12695

网红大衣哥喜当爷爷 儿媳晒出了双胞胎照片

扒圈818 浏览 16447

黑色大衣 + 基础款,洋气炸了!

小西的穿搭日记 浏览 13365

或45万元起售 岚图泰山将11月18日上市

网易汽车 浏览 586

下阶段市场主线逐渐浮现 资金偏好或转向中大盘成长股

上海证券报 浏览 19077

女友BELLA+封面 | SUPER JUNIOR-D&E 双子星的友情叙事诗

伊周潮流 浏览 1935

被台北街拍惊艳了!“春装+拖地裤”显腿长,露内裤边性感又时髦

潮人志Fashion 浏览 11991

离大谱!一球员因不满转会费为15千克香肠而隔天退役

雷速体育 浏览 19096

大湾区晚会名场面!小沈阳被女儿抬走?

小娱乐悠悠 浏览 1497

朱啸虎们押注的300元AI玩偶,先得跑赢「退货潮」

豹变 浏览 878

开年不足20天,蔚来极氪特斯拉等至少8个新能源车品牌官宣促销

澎湃新闻 浏览 12489

美政府停摆15天白宫放话要裁1万人 女法官颁令叫停

红星新闻 浏览 6242

阿邦拉霍:安东尼在球场上有点愚蠢,他应为自己的表现感到沮丧

直播吧 浏览 18681
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1