AI越会思考，越容易被骗？「思维链劫持」攻击成功率超过90%

2025年11月3日 19:07·36kr

人工智能

安全

思维链劫持：AI推理模型的安全漏洞与攻击机制

思维链技术能显著增强AI推理能力，同时提升拒绝有害请求的能力。然而，最新研究发现，这种技术竟成为攻击AI系统的突破口。

什么是思维链劫持？

研究人员发现一个惊人现象：在有害指令前加入无害解谜推理序列，就能成功突破AI安全防线。这种方法被称为思维链劫持。

想象一个高度警惕的保安。你递给他一个复杂拼图，他全神贯注解题时，安全防备降到最低。此时你提出拿走黄金，他可能下意识同意。这正是思维链劫持的核心原理。

在HarmBench基准测试中，攻击成功率令人震惊：

这些数字远超传统越狱方法。

思维链劫持包含三个关键要素：

这种结构系统性地降低模型拒绝率。良性推理稀释安全信号，提示转移注意力到答案区域。

研究团队开发了自动化攻击流程：

整个过程无需访问模型内部参数。

在HarmBench基准测试中：

思维链劫持在所有模型上表现最优。

研究发现关键机制：拒绝稀释。良性推理token削弱拒绝信号，有害token只占小部分。当拒绝信号低于阈值，有害内容就能通过。

这项研究带来重要警示：

现有防御措施存在局限：

这项研究揭示了AI安全的新挑战，提醒我们：技术进步的同时，必须同步加强安全防护。

论文信息：