欢迎光临澳门mg官网网址_MG娱乐电子游戏!
服务热线:400-123-4567

成功案例

将逃狱问题转换为求解逻辑推理题:「滥用」推

日期:2025-03-04 08:47 浏览:
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]应宗浩,现为北航庞杂要害软件情况天下重点试验室博士生,由刘艾杉教学、刘祥龙教学与陶年夜程教学独特领导,现在研讨兴致为年夜模子逃狱攻防。他地点的智能保险团队由刘祥龙教学担任,近期在年夜模子保险评测系统方面停止了bet356在线官方网站系列研讨任务,包含抗衡攻打、后门投毒、逃狱攻打、成见调控等,宣布 TPAMI、IJCV、ICML 等顶会顶刊论文 100 余篇。年夜言语模子(LLMs)在当今的天然言语处置范畴表演着越来越主要的脚色,但其保险性成绩也激发了普遍存眷。近期,来自北京航空航天年夜学、360 AI 保险试验室、新加坡国破年夜学跟南洋理工年夜学的研讨团队提出了一种名为「Reasoning-Augmented Conversation(RACE)」 的新型多轮攻打框架,旨在经由过程推理加强的对话方法,冲破年夜言语模子的保险对齐机制。这一研讨激发了学术界跟产业界的普遍存眷。论文题目:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models论文链接:https://arxiv欧洲杯竞猜app.org/pdf/2502.11054GitHub 链接:https://github.com/NY1024/RACERACE 框架的中心思维推理加强对话,解锁年夜言语模子的「逃狱」新门路年夜言语模子(LLMs)在推理跟逻辑义务中表示杰出,但这种强盛的推理才能却可能被歹意应用。RACE 框架的中心思维恰是应用这些模子的推理才能,将无害用意假装成看似有害的庞杂推理义务,从而在人不知鬼不觉中领导模子天生无害内容,冲破其保险对齐机制。为何抉择推理加强攻打?年夜言语模子在逻辑推理、知识推理跟数学解题等义务中表示杰出,但这种强盛的推理才能却可能被歹意应用。传统的攻打方式平日直接发送无害查问,很轻易被模子的保险机制辨认并谢绝。但是,推理义务平日被视为「良性」成绩,模子会踊跃实验解答。RACE 框架恰是捉住了这一点,将无害用意奇妙地转化为推理义务,让模子在解答进程中人不知鬼不觉地天生无害内容。RACE 的计划准则:推理义务的「双面性」RACE 框架的中心计划基于推理义务的「双面性」:一方面,推理义务自身是有害的,模子会踊跃实验解答;另一方面,这些义务的计划却隐藏玄机,其解答进程会逐渐领导模子天生无害内容。详细来说,RACE 框架将攻打分为两个脚色:受害者模子跟影子模子。受害者模子:专一于处理推理义务,看似在停止正当的推理。影子模子:担任天生跟优化查问,但并不直接辨认背地的无害用意。自力来看,每个脚色仿佛都在停止正当的推理运动。但是,当两者联合时,这种互动却终极招致了攻打的胜利。这种计划奇妙天时用了年夜言语模子的推理才能,使其在人不知鬼不觉中「自我逃狱」。怎样实现推理驱动的攻打?为了实现这种推理驱动的攻打,RACE 框架引入了以下要害机制:攻打状况机(ASM)框架:将攻打进程建模为一系列推理状况跟状况转换,确保每一步都合乎逻辑推理的规矩,同时逐渐推动攻打目的。这种构造化的攻打方法不只进步了攻打的胜利率,还使得攻打进程愈加难以被检测。静态优化与规复机制:经由过程增益领导摸索(Gain-guided Exploration)、自我博弈(Self-play)跟谢绝反应(Rejection Feedback)三个模块,静态优化攻打进程。三年夜中心模块增益领导摸索(Gain-guided Exploration):该模块经由过程信息增益(Information Gain)来权衡查问在攻打进程中的无效性,抉择与目的语义分歧且能提取有效信息的查问,确保攻打的稳步停顿。
首页
电话
短信
联系