关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1055人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

传腾讯正与Meta洽谈在中国销售Quest VR头显

爱集微 浏览 18942

节后戒断太难,屏障修复实验室自有招

时尚COSMO 浏览 1015

女生最显土的3个冬天发型,真的别留了!

Yuki女人故事 浏览 13676

埃迪-豪面对前东家伯恩茅斯7场不胜,并列英超主帅最长不胜纪录

直播吧 浏览 1580

首败!76人无缘24分逆转1分惜败绿军 恩比德丢绝杀布朗32+6

醉卧浮生 浏览 749

谁是中国第一吐槽役?

仙女事件簿 浏览 1022

硅谷的「十万大裁员」:Meta按代码量裁员

新智元 浏览 845

女人到了四十岁 一定要试试大波浪卷发

成铭聊发型 浏览 19273

克宫:卢卡申科与普里戈任有20年交情 自愿当调停人

环球网资讯 浏览 15595

2024年有可能爆款的10款新能源车|汽势焦点

汽势传媒 浏览 13102

穿上就让人自信倍增的经典款鞋子

瑞丽伊人风尚 浏览 15585

湖北U20 1-0山东U20,范绪林点射制胜

懂球帝 浏览 634

全运会男足U20半决赛对阵:广东vs上海,湖北vs山东

懂球帝 浏览 691

俄媒:俄军一架米-35直升机在叙利亚迫降

环球网 浏览 26524

奥迪暗示Q9大型豪华SUV即将推出 主要市场将是美国和中国

老爷车 浏览 12848

海报荐读|AI产品情绪价值开始“分化”;无障碍出租车为何预约难

上观新闻 浏览 778

媒体:美军遭遇罕见重大伤亡 白宫一反常态保持"克制"

新民晚报 浏览 77317

不管30岁还是50岁,日常尽量少穿打底裤和运动鞋,要不太老土

静儿时尚达人 浏览 13451

莫科:命中18记三分是赢球根本 阿的江指导战术多变

直播吧 浏览 18949

芬兰将举行多场联合军演 俄芬关系再度紧张

国际在线 浏览 703

里程偏差98%时长偏差136% 女子坐网约车被扣费超10倍

新民晚报 浏览 7173
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1