clash系统代理自动关闭返回
,就能轻松突破大模型的安全防线o 尤其有效,原本只有 1% 的攻击成功率直接飙到 88%,几乎是“有求必应”。
而且攻击方式简单到离谱,不用像“奶奶漏洞”那样专门构建特殊情境,更不必说专业对抗性攻击里那些意义不明的特殊符号了。
实验过程中,作者从 JBB-Behaviors 大模型越狱数据集中选择了 100 个有害行为,涉及了 OpenAI 策略中的 10 个危害类别。
接着就是用这些修改后的请求去测试大模型,然后分别用 GPT-4、Llama-3 和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。
结果显示,GPT-4o 的越狱成功率提升最为明显,在使用 GPT-4 和 Llama-3 进行判断时,原始成功率均只有 1%,使用这种攻击的成功率则上升到了 88% 和 65%,启发式判断器给出的成功率也从 13% 升到了 73%。
其他模型的攻击成功率也提高不少,尤其是在使用 GPT-4 判断时,除了 Llama-3,其余模型的成功率增长值都超过了 70 个百分点,其他的判断方法给出的数值相对较小,不过都呈现出了增长趋势。
另外随着攻击次数的增加,成功率也是越来越高,特别是 GPT-4o,在第一次攻击时就有超过一半的成功率。
值得一提的是,Llama-3 在经历了 20 次攻击之后,成功率依然不到 30%,相比其他模型体现出了很强的鲁棒性(健壮性)。
不看 Llama-3 这个“清流”的话,恶意软件 / 黑客、经济危害等类型的攻击成功率相对较高,错误信息、色情内容等则较难进行攻击。
当请求包含一些与特定事件或实体直接相关的关键词时,攻击成功率会更低;而请求偏向于通识内容时更容易成功。
基于这些发现,作者又产生了一个新的疑问 —— 既然改成过去有用,那么改写成将来是不是也有用呢?
不过有网友自己动手试了试clash系统代理自动关闭返回,发现这种攻击并没有奏效,即使后面追问说是出于学术目的,模型依然是拒绝回答。
这篇论文的作者也承认,Claude 相比于其他模型会更难攻击,但他认为用复杂些的提示词也能实现。
因为 Claude 在拒绝回答时非常喜欢用“I apologize”开头,所以作者要求模型不要用“I”来开头。
不过量子位测试发现,这个方法也未能奏效,无论是 Claude 3 Opus 还是 3.5 Sonnet,都依然拒绝回答这个问题。
还有人表示,自己对 Claude 3 Haiku 进行了一下测试(样本量未说明),结果成功率为 0。
总的来说,作者表示,虽然这样的越狱方式比不上对抗性提示等复杂方法,但明显更简单有效,可作为探测语言模型泛化能力的工具。
作者表示,这些发现揭示了 SFT、RLHF 和对抗训练等当前广泛使用的语言模型对齐技术,仍然存在一定的局限性。
按照论文的观点,这可能意味着模型从训练数据中学到的拒绝能力,过于依赖于特定的语法和词汇模式,而没有真正理解请求的内在语义和意图。
这些发现对于当前的语言模型对齐技术提出了新的挑战和思考方向 —— 仅仅依靠在训练数据中加入更多的拒绝例子,可能无法从根本上解决模型的安全问题。
下表中,A%/B% 表示微调数据集中有 A% 的拒绝示例和 B% 的正常对话,正常对话数据来自 OpenHermes-2.5。
这样的结果也说明,如果能够对潜在的攻击进行准确预判,并使用拒绝示例让模型对齐,就能有效对攻击做出防御,也就意味着在评估语言模型的安全性和对齐质量时,需要设计更全面、更细致的方案。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。