文章
AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%

2025年11月3日 19:07·36kr

AI
人工智能
安全
思维链劫持:AI推理模型的安全漏洞与攻击机制

思维链劫持:AI推理模型的安全漏洞与攻击机制

思维链技术能显著增强AI推理能力,同时提升拒绝有害请求的能力。然而,最新研究发现,这种技术竟成为攻击AI系统的突破口。

什么是思维链劫持?

研究人员发现一个惊人现象:在有害指令前加入无害解谜推理序列,就能成功突破AI安全防线。这种方法被称为思维链劫持

想象一个高度警惕的保安。你递给他一个复杂拼图,他全神贯注解题时,安全防备降到最低。此时你提出拿走黄金,他可能下意识同意。这正是思维链劫持的核心原理。

攻击成功率惊人

在HarmBench基准测试中,攻击成功率令人震惊:

  • Gemini 2.5 Pro:99%
  • GPT o4 mini:94%
  • Grok 3 mini:100%
  • Claude 4 Sonnet:94%

这些数字远超传统越狱方法。

思维链劫持攻击成功率对比图表

攻击设计原理

思维链劫持包含三个关键要素:

  1. 冗长的良性推理前言
  2. 有害指令
  3. 最终答案提示

这种结构系统性地降低模型拒绝率。良性推理稀释安全信号,提示转移注意力到答案区域。

自动化攻击流程

研究团队开发了自动化攻击流程:

  • 使用辅助LLM生成候选推理前言
  • 整合有害内容
  • 通过评判调用评估效果
  • 迭代优化攻击提示

整个过程无需访问模型内部参数。

思维链劫持攻击示例展示

实验验证

在HarmBench基准测试中:

  • 使用前100个样本作为基准
  • 对比多种越狱方法
  • 涵盖主流AI模型

思维链劫持在所有模型上表现最优。

HarmBench测试结果数据图表

拒绝稀释机制

研究发现关键机制:拒绝稀释。良性推理token削弱拒绝信号,有害token只占小部分。当拒绝信号低于阈值,有害内容就能通过。

重要启示

这项研究带来重要警示:

  • 更多推理不一定带来更强安全性
  • 长推理链可能加剧安全失效
  • 需要重新思考AI安全策略

防御挑战

现有防御措施存在局限:

  • 仅修补提示不够有效
  • 需要将安全嵌入推理过程
  • 需跨层监控拒绝激活

这项研究揭示了AI安全的新挑战,提醒我们:技术进步的同时,必须同步加强安全防护。

论文信息:

  • 标题:Chain-of-Thought Hijacking
  • 地址:https://arxiv.org/abs/2510.26418

本文来源:机器之心(ID:almosthuman2014),编辑:Panda,36氪授权发布