关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2917人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大家赚疯没?A股15连阳,打破尘封33年记录

说财猫 浏览 1359

王诗龄放假回北京了,照片曝光很漂亮

瞻史 浏览 2680

莱万特3-0大胜塞维利亚,卡洛斯-阿尔瓦雷斯、卡洛斯-埃斯皮破门

懂球帝 浏览 1708

微胖中年女人别乱穿!3个核心搭配技巧,轻松穿出优雅时髦感

静儿时尚达人 浏览 1837

中国商业联合会:人工智能加速拓展服务消费新场景

新华社 浏览 1657

纯电续航210km 海豹05DM-i/海豹06DM-i超享版加推新车型

网易汽车 浏览 1646

黄仁勋,亲赴台积电“要产能”

华尔街见闻官方 浏览 2533

不满美威胁 格陵兰岛自治政府总理:我们未来自己决定

环球网资讯 浏览 5848

爱马仕的暮色时分有多美?

时尚COSMO 浏览 674

前总裁起诉申通快递,要求分得前妻名下2028万股股权

YOUNG财经 浏览 1559

撒贝宁随李白回加拿大探亲,俩人带着龙凤胎闲逛

二妹扯娱 浏览 2767

72岁唐僧迟重瑞卖房,580亿财产成了笑话?

胡一舸南游y 浏览 2598

固态电池瓶颈技术取得重大突破!

电动知家 浏览 3392

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

老吴教育课堂 浏览 496

老年痴呆父亲掏出所有钱哽咽求女儿:能带我找妈妈吗

潇湘晨报 浏览 12185

秦昊一家五口度假,伊能静少女打扮但很显胖

八怪娱 浏览 1994

小S曝具俊晔现状:因太思念大S,没法正常生活

比利 浏览 2715

宋慧乔怎么不会老啊?

时尚COSMO 浏览 1848

明抢!中国企业147亿半导体资产被荷兰政府冻结,CEO被停职;小米第三款车YU9多张实车谍照曝光;美团外卖骑手能屏蔽顾客了丨雷峰早报

雷峰网 浏览 2867

美国贸易代表:想和中国再谈谈 但不谈稀土

澎湃新闻 浏览 18926

每天一秒“续命”签到,8块钱可享“失联预警”,年轻人为啥能接受“死了么”?刚需!

大象新闻 浏览 1654
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1