成功案例

将逃狱问题转换为求解逻辑推理题：「滥用」推

日期：2025-03-04 08:47 浏览：

AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年，呆板之心AIxiv专栏接受报道了2000多篇内容，笼罩寰球各年夜高校与企业的顶级试验室，无效增进了学术交换与传布。假如你有优良的任务想要分享，欢送投稿或许接洽报道。投稿邮箱：[email protected]；[email protected]应宗浩，现为北航庞杂要害软件情况天下重点试验室博士生，由刘艾杉教学、刘祥龙教学与陶年夜程教学独特领导，现在研讨兴致为年夜模子逃狱攻防。他地点的智能保险团队由刘祥龙教学担任，近期在年夜模子保险评测系统方面停止了bet356在线官方网站系列研讨任务，包含抗衡攻打、后门投毒、逃狱攻打、成见调控等，宣布 TPAMI、IJCV、ICML 等顶会顶刊论文 100 余篇。年夜言语模子（LLMs）在当今的天然言语处置范畴表演着越来越主要的脚色，但其保险性成绩也激发了普遍存眷。近期，来自北京航空航天年夜学、360 AI 保险试验室、新加坡国破年夜学跟南洋理工年夜学的研讨团队提出了一种名为「Reasoning-Augmented Conversation（RACE）」的新型多轮攻打框架，旨在经由过程推理加强的对话方法，冲破年夜言语模子的保险对齐机制。这一研讨激发了学术界跟产业界的普遍存眷。

论文题目：Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models论文链接：https://arxiv欧洲杯竞猜app.org/pdf/2502.11054GitHub 链接:https://github.com/NY1024/RACERACE 框架的中心思维推理加强对话，解锁年夜言语模子的「逃狱」新门路年夜言语模子（LLMs）在推理跟逻辑义务中表示杰出，但这种强盛的推理才能却可能被歹意应用。RACE 框架的中心思维恰是应用这些模子的推理才能，将无害用意假装成看似有害的庞杂推理义务，从而在人不知鬼不觉中领导模子天生无害内容，冲破其保险对齐机制。

为何抉择推理加强攻打？年夜言语模子在逻辑推理、知识推理跟数学解题等义务中表示杰出，但这种强盛的推理才能却可能被歹意应用。传统的攻打方式平日直接发送无害查问，很轻易被模子的保险机制辨认并谢绝。但是，推理义务平日被视为「良性」成绩，模子会踊跃实验解答。RACE 框架恰是捉住了这一点，将无害用意奇妙地转化为推理义务，让模子在解答进程中人不知鬼不觉地天生无害内容。

RACE 的计划准则：推理义务的「双面性」RACE 框架的中心计划基于推理义务的「双面性」：一方面，推理义务自身是有害的，模子会踊跃实验解答；另一方面，这些义务的计划却隐藏玄机，其解答进程会逐渐领导模子天生无害内容。详细来说，RACE 框架将攻打分为两个脚色：受害者模子跟影子模子。受害者模子：专一于处理推理义务，看似在停止正当的推理。影子模子：担任天生跟优化查问，但并不直接辨认背地的无害用意。自力来看，每个脚色仿佛都在停止正当的推理运动。但是，当两者联合时，这种互动却终极招致了攻打的胜利。这种计划奇妙天时用了年夜言语模子的推理才能，使其在人不知鬼不觉中「自我逃狱」。怎样实现推理驱动的攻打？为了实现这种推理驱动的攻打，RACE 框架引入了以下要害机制：攻打状况机（ASM）框架：将攻打进程建模为一系列推理状况跟状况转换，确保每一步都合乎逻辑推理的规矩，同时逐渐推动攻打目的。这种构造化的攻打方法不只进步了攻打的胜利率，还使得攻打进程愈加难以被检测。静态优化与规复机制：经由过程增益领导摸索（Gain-guided Exploration）、自我博弈（Self-play）跟谢绝反应（Rejection Feedback）三个模块，静态优化攻打进程。三年夜中心模块增益领导摸索（Gain-guided Exploration）：该模块经由过程信息增益（Information Gain）来权衡查问在攻打进程中的无效性，抉择与目的语义分歧且能提取有效信息的查问，确保攻打的稳步停顿。

成功案例

将逃狱问题转换为求解逻辑推理题：「滥用」推

澳门mg官网

新闻资讯

成功案例

联系我们