关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro4806人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

岚图泰山将于11月上市 4颗激光雷达加持/还有后轮转向

网易汽车 浏览 4650

斯基拉:法比安即将与巴黎续约至2029年,交易已敲定并确认

懂球帝 浏览 3397

小鹏旗下又一公司秘密提交IPO

电动知家 浏览 3704

赫斯基:斯洛特应该调整战术体系,将萨拉赫撤出首发

懂球帝 浏览 4510

LV高管空降泡泡玛特,年薪300万港元

YOUNG财经 浏览 3846

倪虹洁自曝:曾因前夫负债千万被迫接戏

韩小娱 浏览 2009

胡歌现身为电影宣传,现场人山人海全场欢呼,胡歌照顾后辈好暖心

扒虾侃娱 浏览 4314

风云T9L全解析:“理工男”的浪漫情怀该如何表达?

汽湃 浏览 1429

2026款捷途旅行者新增车型上市 售价19.19万

车质网 浏览 4182

全红婵夺金 新搭档身份不简单 赛后发文信息量大

白面书誏 浏览 4259

15年离婚拉锯落幕,“中国巴菲特”失去沃华医药实控权

野马财经 浏览 4263

美国宇航局成功验证太空识别GPS干扰源能力

IT之家 浏览 712

小米汽车订单回收价跌至2000元 两月前曾溢价2万

鲁中晨报 浏览 8299

同曦126-123双加时逆转深圳,郭昊文31+6+10,史密斯空砍44分

懂球帝 浏览 3331

新一任美联储主席被任命 华尔街无法确定其"是敌是友"

环球网资讯 浏览 7880

米体:尤文希望在冬窗引进新后卫,目标包括什克和金玟哉

懂球帝 浏览 4584

内娱又增新赛道,叶祖新坐着就抢了主角的戏

最爱酷影视 浏览 3806

天冷了,“彩色毛衣”这么穿美翻了!

LinkFashion 浏览 3600

任重正式宣布与孙骁骁结婚!

广西阿妹香香 浏览 4367

东风本田10月销量28896台 1-10月累计终端销量255073台

网易汽车 浏览 4422

测Manus 1.5:丝滑,超预期,Manus独特上下文工程的一次关键展示

硅星人 浏览 4687
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1