关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4800人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

戴墨镜出席达沃斯会议后 马克龙的支持率提升

参考消息 浏览 7409

50+姐姐冬季要会“叠穿”,掌握这些技巧,保暖不臃肿显高级

静儿时尚达人 浏览 3658

新增车道级导航与全向记录仪 腾势N9迎重磅OTA升级

网易汽车 浏览 4483

黄宗泽恭喜陈伟霆当爸,没想到隐藏那么深,怼记者做人别太八卦

扒虾侃娱 浏览 4595

"2500吨粮食没法及时运出去" 一根限高杆卡住四个村

重案组37号 浏览 14133

仝卓表弟获救了!照片曝光头发已被剃光,从求助到救出不到24小时

萌神木木 浏览 4027

长安福特要转让三条电池组装生产线,电动车转型下一步怎么走?

时代周报 浏览 5062

1999元起 华为畅享70X尊享版开售:麒麟8000芯片、一键发送北斗卫星消息

快科技 浏览 4045

含奕派007/奕派008等 东风奕派限时权益至高减6000元

网易汽车 浏览 3000

E句话| 这对邪门CP又是哪里来的?

仙女事件簿 浏览 3506

澳网官方推出预测活动,男女任一签表结果全对可得1000万澳元奖金

懂球帝 浏览 3572

科学家构建三合一原位X射线平台,揭示CO₂电解中催化剂降解机制

DeepTech深科技 浏览 4570

媒体:特朗普对韩关税提高至25% 韩国汽车业天塌了

澎湃新闻 浏览 23286

科贝:卡尼萨雷斯质疑弗洛伦蒂诺的皇马所有制计划

懂球帝 浏览 584

美股,涨爆了!A股,怎么走?

金石随笔 浏览 1305

可惜了,这世界第一美少年

独立鱼 浏览 4474

邮报:未来几战将决定波特去留,他若下课西汉姆已在考虑比利奇

直播吧 浏览 5296

对话刘展术|大众安徽是转型先锋,与众09将于下半年上市

My车轱辘 浏览 637

媒体:自家老牌车企落后中美 欧盟恐对中国车厂下手

澎湃新闻 浏览 11548

美国进逼委内瑞拉 分析人士:已突破国际法的危险界限

上观新闻 浏览 4319

女子连续偷吃5个蛋挞 转身大摇大摆走掉

极目新闻 浏览 23506
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1