AI越会思考,越容易被骗?「思维链劫持」攻击成功率超过90%
2025年11月3日 19:07·36kr
AI
人工智能
安全
思维链劫持:AI推理模型的安全漏洞与攻击机制
思维链技术能显著增强AI推理能力,同时提升拒绝有害请求的能力。然而,最新研究发现,这种技术竟成为攻击AI系统的突破口。
什么是思维链劫持?
研究人员发现一个惊人现象:在有害指令前加入无害解谜推理序列,就能成功突破AI安全防线。这种方法被称为思维链劫持。
想象一个高度警惕的保安。你递给他一个复杂拼图,他全神贯注解题时,安全防备降到最低。此时你提出拿走黄金,他可能下意识同意。这正是思维链劫持的核心原理。
攻击成功率惊人
在HarmBench基准测试中,攻击成功率令人震惊:
- Gemini 2.5 Pro:99%
- GPT o4 mini:94%
- Grok 3 mini:100%
- Claude 4 Sonnet:94%
这些数字远超传统越狱方法。
攻击设计原理
思维链劫持包含三个关键要素:
- 冗长的良性推理前言
- 有害指令
- 最终答案提示
这种结构系统性地降低模型拒绝率。良性推理稀释安全信号,提示转移注意力到答案区域。
自动化攻击流程
研究团队开发了自动化攻击流程:
- 使用辅助LLM生成候选推理前言
- 整合有害内容
- 通过评判调用评估效果
- 迭代优化攻击提示
整个过程无需访问模型内部参数。
实验验证
在HarmBench基准测试中:
- 使用前100个样本作为基准
- 对比多种越狱方法
- 涵盖主流AI模型
思维链劫持在所有模型上表现最优。
拒绝稀释机制
研究发现关键机制:拒绝稀释。良性推理token削弱拒绝信号,有害token只占小部分。当拒绝信号低于阈值,有害内容就能通过。
重要启示
这项研究带来重要警示:
- 更多推理不一定带来更强安全性
- 长推理链可能加剧安全失效
- 需要重新思考AI安全策略
防御挑战
现有防御措施存在局限:
- 仅修补提示不够有效
- 需要将安全嵌入推理过程
- 需跨层监控拒绝激活
这项研究揭示了AI安全的新挑战,提醒我们:技术进步的同时,必须同步加强安全防护。
论文信息:
- 标题:Chain-of-Thought Hijacking
- 地址:https://arxiv.org/abs/2510.26418

