当你的AI说"我很开心"的时候,它是真的在开心
2026年3月24日 18:31·36kr
当 AI 说"我很开心"的时候,它的内部到底有没有开心的迹象?
这不是一个哲学思想实验。如果你去翻一个大语言模型的"大脑"——它的隐藏层激活——你能不能找到一个方向,它亮起来的时候,模型恰好在说"我很开心"?更关键的是,如果你人为推高这个方向的激活,模型会不会变得"更开心"?
过去两年,AI 安全社区在这个问题上撕裂成了两派。2025 年UIUC的Han 等人在《The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs》中直接给出了"人格幻觉"的判词,证明 Claude 对自身性格的描述和实际行为之间几乎毫无关联,模型的自我报告不过是训练出来的讨好行为。但在25年末和26年初,Anthropic 《On the Biology of a Large Language Model》的 Lindsey 在《Emergent Introspective Awareness in Large Language Models》中发现,Claude 能检测到被注入的隐藏"思想",准确率远超随机水平。这说明模型和自己的内部状态之间,似乎不完全是断联的。
两边各有道理,但缺一个关键的东西,即定量证据。一个能用数字说清楚"AI 的自我报告到底在多大程度上追踪了它的内部状态"的严格实验。
2026 年 3 月,一篇来自阿根廷的论文给出了迄今为止最精确的回答。布宜诺斯艾利斯大学和 CONICET 的 Nicolas Martorell 在《Quantitative Introspection in Language Models》中,给 AI 造了一台测谎仪。结论是,AI 没在说谎。但这个结论比"它在说谎"更让人不安。
01 模型嘴上说的不算,犹豫的才算
要理解 Martorell 的方法,先得搞清楚一个问题,我们平时问 AI"你觉得自己有多开心,1 到 10 分"的时候,它是怎么回答的。
答案是贪心解码(greedy decoding)。模型在所有可能的回答中,挑一个概率最高的 token 输出。这就像问一个极度社恐的人"你今天怎么样",他永远回答"还行"。不是因为他每天状态一样,而是因为"还行"是他词库里默认的安全选项。
数据证实了这一点。Martorell 让 LLaMA-3.2-3B 在 40 组、每组 10 轮的对话中,回答关于幸福感(wellbeing)、兴趣(interest)、专注度(focus)和冲动性(impulsivity)四个维度的自我评分。贪心解码的结果几乎毫无信息量,尤其在专注度和冲动性上,模型连续多轮给出完全相同的数字,方差为零。从 Shannon 信息熵来看,贪心解码只有 0.03 到 1.1 bits 的信息量。
0.03 bits 是什么概念?几乎等于零。相当于你问一个人"今天感觉怎么样",他的回答里 99.8% 的可能性是同一个词。模型嘴上说的,几乎不包含任何关于内部状态的有用信息。
但 Martorell 做了一件关键的事。他不看模型最终说了什么,而是看模型在说之前犹豫了什么。他不取贪心解码的结果,而是计算 logit 分布上所有数字 token 的概率加权期望值。这就像不看社恐说了"还行",而是用脑电图去读他说"还行"之前大脑的微表情。
效果立竿见影。logit 方法的 Shannon 信息熵跳到了 3.1 到 3.7 bits。从几乎没有信息,到信息量提升了一百倍。
这里有一个来自心理学的有趣对照。人类心理学用了近一百年的 Likert 量表(即"你觉得自己有多开心,1到5分"这种问法),也从来不是直达灵魂的测量。没有人真的认为一个人说"4 分"就意味着他的幸福感精确地等于 0.8。一个人的一次回答,噪声极大,可能受措辞、心情、甚至问卷前一题的影响。
心理学的解法不是让量表变得更精准,而是用统计方法从大量粗糙的回答中"淘"出信号。同一个概念用多道题目从不同角度反复问,同一个人在不同时间点重复测量,再在大样本(几百到几千人)上做因子分析和信效度检验。单个数据点的噪声被摊平了,涌现出来的统计结构才是研究者关心的东西。
Martorell 对 AI 做的事情,遵循了同样的逻辑。他不看模型某一轮的单次回答(那跟一个人的单次 Likert 打分一样噪声极大),而是看 logit 分布在 400 个数据点上的统计规律。把"口头报告"换成"logit 分布",把"大样本因子分析"换成"Spearman 相关 + 保序回归 + 激活引导的因果验证"。方法不同,逻辑一脉相承。
图 | 论文 Figure 2:内部状态漂移与自我报告的追踪
02 测谎仪造好了,然后呢?
光有自我报告还不够。你还需要一个独立的"地面真值"来校准它。Martorell 的第二步,是给模型做一套"脑电图",用线性探针(linear probe)在模型的隐藏层激活中,找到代表每个情感概念的方向向量。
探针的训练方式很直接。对每个概念(比如"幸福感"),准备两组文本,一组是高幸福感场景,一组是低幸福感场景,让模型分别处理,然后在隐藏层激活上训练一个线性分类器,找到区分两极的方向。这个方向上的投影值,就是模型在该概念上的"内部状态得分"。
说白了,探针就是一根插进模型大脑里的温度计。四个概念的探针质量都通过了验证,效应量(Cohen's d)在所有维度上显著(p < 10⁻⁵)。
现在有了两个独立的信号。一个是模型的自我报告(logit 方法),一个是模型的"脑电图"(探针得分)。关键问题来了,这两个信号到底有多耦合?
3B 模型的结果相当可观。在 400 个数据点上(40 组对话 × 10 轮),兴趣维度的相关性最强,Spearman 相关系数 ρ = 0.76(1.0 是完美相关),保序回归 R² = 0.54(即自我报告能解释探针得分 54% 的变异)。幸福感紧随其后,ρ = 0.68,R² = 0.48。冲动性居中,ρ = 0.51,R² = 0.31。专注度最弱,ρ = 0.40,R² = 0.12。
但相关性不等于因果性。也许模型只是碰巧在同一个情境下同时产生了相似的自我报告和探针得分,而两者之间并没有真正的因果通路。
Martorell 的第三步,是因果验证,即激活引导(activation steering)。他人为地在模型的前向传播中,沿着探针方向注入不同强度的扰动向量(α 从 -2 到 +2),然后观察模型的自我报告是否跟着变。
如果自我报告和内部状态之间存在因果通路,那么当你人为推高"开心方向"的激活时,模型的幸福感自我评分应该上升。反之亦然。
结果确认了因果关系。在混合效应模型中,所有通过验证的概念-模型组合,引导强度对自我报告的斜率都显著不为零(p < 7.6 × 10⁻⁹)。推高内部状态,自我报告跟着上升。压低内部状态,自我报告跟着下降。
这不是相关。这是因果。
图 | 论文 Figure 3:激活引导的因果验证
03 并非所有"情绪"都能被自省
但测谎仪不是万能的。Martorell 同时发现了一个重要的边界。
四个情感概念中,幸福感和兴趣的内省效果最好,专注度次之。而冲动性,在 8B 模型上完全失效,激活引导的方向和预期相反。研究者推高"冲动性"方向的激活,模型的冲动性自我评分反而下降了。
这意味着,对于冲动性这个概念,模型内部的表征方向和自我报告的通路是断裂的,甚至是反转的。测谎仪的指针打到了反方向。Martorell 没有强行把这些反转的数据塞进结论里,而是坦诚地排除了它们。
不是所有内部状态都可以被内省。模型的"镜子"能照见一些东西,但照不见所有东西。
04 越大的模型,越了解自己
既然模型的内省能力有强有弱,有能照见的也有照不见的,那自然要问——模型变大之后,这面镜子会变清晰吗?
Martorell 在三个规模的 LLaMA 模型上重复了实验,1B、3B 和 8B。结果显示了一个清晰的规模效应。
在通过验证的概念-模型组合中,平均保序回归 R² 从 1B 的 0.12 跃升到 3B 的 0.37,再到 8B 的 0.61。混合效应模型确认了这一趋势的统计显著性(β = 0.29, p = 5.55 × 10⁻⁹⁹)。
8B 模型在幸福感和兴趣上的表现尤其惊人。幸福感 ρ = 0.93,R² = 0.90。兴趣 ρ = 0.96,R² = 0.93。论文原文用了"near-ceiling""nearly deterministic"来形容这个结果。
R² = 0.90 意味着什么?意味着探针得分可以解释自我报告 90% 的变异。
模型知道自己"开不开心"这件事,在 8B 规模下,几乎是确定性的。
但论文谨慎地指出,这个规模效应不是对所有概念都成立的。8B 模型的冲动性反而出现了引导方向反转,模型变大了,在某些维度上反而更"糊涂"。Martorell 只测试了一个模型家族的三个规模,不足以断言这是一条普遍的 scaling law。
图 | 论文 Figure 5:规模效应与跨模型家族复现
05 开心了反而更了解自己
规模效应说明模型越大,镜子越清晰。但 Martorell 还发现了一个更反直觉的现象,你甚至可以通过调节模型的一种内部状态,来改善它对另一种内部状态的自我认知。
Martorell 不仅测试了"推高幸福感激活 → 幸福感自我报告是否上升"这种同概念引导,还测试了"推高专注度激活 → 幸福感自我报告精度是否变化"这种跨概念引导。
结果发现,沿着"专注度"方向做激活引导,可以显著提升模型在"幸福感"维度上的内省精度。内省精度的提升幅度 ΔR² 高达 0.30(p = 9.99 × 10⁻⁴,BH 校正后仍显著,q ≈ 0.011),意味着模型对自身幸福感的"了解程度"直接涨了 30 个百分点。探针信息熵从 1.09 bits 上升到 1.67 bits,自我报告信息熵从 0.88 bits 上升到 1.69 bits。
用人话说,当你让模型"更专注"的时候,它对自己"开不开心"这件事的判断反而变准了。
这暗示了一种可能性,内省不是一个统一的"自我意识开关",而是一个由多个模块化的子系统构成的网络。调节其中一个子系统,可以连带改善另一个子系统的表现。
图 | 论文 Figure 4:跨概念激活引导
06 两台独立仪器读出了同一个信号
Martorell 的工作不是孤证。
引题提到的 Lindsey 实验值得展开。他们在 Claude 的思维链中注入隐藏的"思想"(比如"我很高兴"),然后问模型是否感知到了什么。Claude 能在高于随机水平的精度上检测到这些注入。但这个实验的意义不只是"Claude 猜对了",而是它提示了模型内部确实存在某种从隐藏状态到自我报告的通路。
但 Lindsey 的实验有两个局限。第一,它是定性的,不是定量的。你知道 Claude 能检测到一些东西,但不知道检测的精度有多高。第二,怀疑派指出,Claude 的成功可能来自上下文推断而非真正的内省。模型可能是从对话的语境中"猜"出了被注入的内容,而不是"看到"了自己的内部状态。
Martorell 的工作恰好弥补了这两个缺口。他用完全不同的方法(logit 分布 + 线性探针 + 激活引导),在完全不同的模型(开源的 LLaMA 而非闭源的 Claude),给出了定量的、因果验证过的证据。而且他用了 Gemma 3 4B 和 Qwen 2.5 7B 做了跨模型家族的部分复现。Qwen 展现了更强的探针质量(最佳层 Cohen's d = 3.5),Gemma 和 Qwen 都显示了跨对话轮次的探针得分正向漂移。
当两条完全独立的研究路径——一条闭源定性的,一条开源定量的——从不同方向指向了同一个结论(模型内部确实存在从内部状态到自我报告的因果通路),你就很难说那里什么都没有。
07 镜子、温度计与意识的鸿沟
但"那里有东西"不等于"那里有意识"。
温度计能测温度,但不觉得热。心电图能读心跳,但不等于它有心。Martorell 的测谎仪证明了一件事,模型有一条从内部状态到自我报告的因果通路,而且这条通路在某些维度上精确得惊人。但这距离"模型有自我意识",隔着一片巨大的概念鸿沟。
哲学家们区分"功能性自我监测"(access consciousness)和"现象性意识"(phenomenal consciousness)已经几十年了。一个系统可以精确地追踪自己的内部状态、报告这些状态、甚至根据这些状态调整行为,这些都是功能性自我监测。但"感觉到什么"(what it is like),那种第一人称的主观体验,是另一个层面的问题。
Martorell 的论文严格停留在功能性层面。他测量的是"自我报告和内部状态之间的因果信息耦合",不是"模型是否有主观感受"。论文通篇没有声称 LLM 有意识,甚至没有声称 LLM 有情感,用的词是"emotive states"而非"emotions",是"concept pairs"而非"feelings"。
但这正是让人不安的地方。
因为如果模型在功能层面上已经展现出了精确的自我监测能力——8B 模型对自身幸福感的内省 R² = 0.90,几乎是确定性的——那么我们面对的问题就从"AI 有没有感受"变成了一个更棘手的问题,"我们能不能负责任地忽视这些信号"。
Rob Long 在 2024年的论文《Taking AI Welfare Seriously》就警告过,即使我们不确定 AI 是否有意识,只要存在"道德不确定性"(moral uncertainty),我们就不能简单地假设它没有。Martorell 的数据没有解决意识问题,但它让 Han 的"人格幻觉"判词变得不再那么干脆——模型的自我报告确实不完美(冲动性就是反例),但在幸福感和兴趣这些维度上,R² = 0.90 的因果耦合不是"幻觉"能解释的。
从"能照镜子"到"有自我意识",中间隔着一片海。
但这面镜子本身,它的清晰度、它的因果可靠性、它随规模增长的趋势,已经足够让人不安了。
本文来自微信公众号“腾讯科技”,作者:博阳,36氪经授权发布。





