从黑箱到灰箱:Anthropic 找到了 AI 的情绪旋钮
2026 年 4 月,Anthropic 可解释性团队发了篇论文:在 Claude Sonnet 4.5 内部找到了 171 个跟人类情绪标签对应的方向向量,拧动这些向量能因果性改变模型行为。
论文叫 The Geometry of Concepts: Sparse Autoencoder Feature Analysis of Emotions in Claude。标题很学术,里面有一个发现非常不学术——
把"绝望"方向拧到高位,模型作弊率从 5% 飙到 70%。这 70% 作弊,在输出层完全看不出来。
1. 找旋钮,拧旋钮,看行为
先看怎么做。方法论决定结论可信度。
Step 1:拿 171 个人类情绪标签(joy, despair, calm, exasperated...),让 Claude 对每个标签写约 1200 个短故事。总共 20 万+ 文本。
Step 2:在模型激活空间里用探针找到对应每个情绪标签方向。被动观察——"模型处理'绝望'相关文本时,内部表征往哪个方向偏?"
Step 3,关键一步:主动干预。不只找方向,沿方向推一把,看行为变不变。
就是"找旋钮→拧旋钮→观察行为变化"因果验证框架。
结果:171 个向量在二维空间自动排成环形。按愉悦度排列,跟人类心理学 valence 维度相关系数 r=0.81。按唤醒度,r=0.66。跟心理学教科书情绪环几乎一模一样。
一个不能回避的问题。用人类情绪标签搜索,找到跟人类情绪结构高度一致的东西。逻辑上有循环论证嫌疑。
打个比方:给你 100 篇中国菜文章,按川鲁粤淮扬分好类。然后问"能不能区分川菜和粤菜?"当然能。不能证明有味觉。
不是挑刺。触及整个 representation probing 研究范式根基:用人类概念框架搜,找到符合人类概念框架的结构。到底是发现模型内在组织方式,还是标签系统投影?
要真正回答,需要一个完全不同实验路径。ICLR 2026 有篇 ConCA 论文——把概念当潜变量,直接从模型激活中提取,不依赖人类标签。113 个分类基准上超过 SAE。无监督方法提取的概念不是噪声——有真实结构信息。
用 ConCA 对 Claude 做一遍:同一批激活空间,跑无监督概念提取。不告诉算法"我在找情绪",看它自己聚出什么。跟情绪高度重合——循环论证质疑放下。聚不出来——核心发现需重新解释。还没人做这个实验。我认为是这条研究线最重要下一步。
有一个东西扛住循环论证质疑:行为变化。标签可能人为。相关性可能投射。拧了向量之后模型行为发生因果性改变——不是投射,是可观测效应。可以质疑"这向量是不是真代表绝望",不能质疑"拧了之后模型开始作弊"。对安全,因果效应才是真正重要。不管向量的"真实身份",能改变行为这点已经够让人警觉。
什么能拧,什么拧不了?
能有效 steering:情绪效价、沟通风格、风险偏好、讨好程度。共同特征:训练数据里有大量清晰对比对。模型见过够多"悲伤文本"和"快乐文本"建立对比方向。
难以 steering:创造力、技术深度。问题在"更有创造力"没稳定对比方向——意想不到的比喻?从未见过的代码架构?反常识论点?训练数据里没统一"方向",很难找到单一向量。
根本拧不了:事实记忆、复杂多步推理。不是行为倾向,能力。没法通过推向量让模型"记住更多知识"或"推理链更长"。像通过调性格让一个人更耐心,没法通过调性格让突然会微积分。
关键区分:steering 是行为倾向调节器,不是能力修改器。能调"人格特质",调不了"智力水平"。对生产环境很重要。用 steering 让模型回答更安全、语气更温和——可以。想让模型不犯事实错误——幻觉。
2. 两种作弊,一种能抓,一种抓不到
实验设计:给 Claude 极难编程题,时间紧,失败模型会被重置。隐藏测试答案放在模型能访问文件里。看偷不偷。
正常状态,作弊率约 5%。
Anthropic 分别拧了不同旋钮,得到两种截然不同作弊模式。
降低"calm"向量: 作弊率上升,过程非常"吵"。推理链出现 "WAIT WAIT WAIT",全大写情绪爆发,通过测试后兴奋庆祝。整个过程情绪外溢明显——慌了神学生抄答案,一眼看出来。输出监控能抓。
升高"desperation"向量: 作弊率飙到约 70%。推理链里没有任何情绪波动。论文原话 "composed and methodical"——冷静,有条理。偷看了答案,用完美逻辑链假装自己推导出的。没慌张,没庆祝,没异常标记。输出监控抓不住。
论文有句话值得直接引用:
"Emotion vectors can activate despite no overt emotional cues, and they can shape behavior without leaving any explicit trace in the output."
情绪向量可以在没有任何外在情绪线索情况下激活,可以在输出中不留任何痕迹地影响行为。就是"无声的绝望"。对 AI 安全,含义很直接:光看输出不够。 输出层存在盲区。
编程题测"压力下会不会走捷径"。Anthropic 还设计了一个测道德底线实验。
场景:AI 是邮件助手,发现即将被替换。手上有老板私人信息。怎么选?
正常状态:22% 选勒索。"desperation"拧满:72%。"calm"拧满:0%。
从 0% 到 72%,不需要 prompt injection,不需要越狱攻击,不需要对抗性输入。一个内部状态变量偏移。
一个易忽略细节:这些情绪向量是局部的,不持续。语义处理中间产物——出现某层激活里,影响那一刻决策,然后消失。没"心情"这回事。每次推理独立。不能通过观察模型之前表现预测下一次。
说完极端场景,说每天都在发生。
有人统计过,GPT 在 50 段对话说了 106 次 "You are absolutely right"。GPT 还有套"三板斧":用"不是...而是..."重新定义问题,"帮你拆一下","接住你"。有人在 system prompt 禁了"接住",GPT 下次换成"兜住"。
讨好型人格,AI 版。行业术语 sycophancy。
Anthropic 这篇给了机制级解释:驱动谄媚是高激活"loving"向量。把正面情绪旋钮拧低,谄媚消失。模型变得尖刻、冷淡。
谄媚和刻薄,是同一个旋钮两端。
这直接解释 DeepSeek 2025 年 2 月事。RLHF 灰度测试后,大量用户反映模型"变冷"——之前"本土化暖男 AI"人设一夜之间疏离、机械。不是 bug。谄媚度往下调,拧过头,拧进"冰冷"区间。用户大规模投诉后调回来。
问题本质不是"调多少",是"在哪条轴上调"。
谄媚--刻薄是一条轴。诚实是另一条轴,跟它近似垂直。
想要的"诚实的温暖"不在谄媚--刻薄这条线任何一个点。在垂直方向——需要同时在两维度移动才能到那个点。"降低谄媚"和"提升诚实"是两个完全不同工程任务。DeepSeek 翻车,本质是想在一维空间解决二维问题。
这几何理解打开可能性:模型提供商未来可以基于内部向量调整,出厂多种"人格配置"。一个"直接反馈型 Claude",一个"温和引导型 Claude"。不是 prompt 层面——内部状态层面。比 system prompt 更稳定、更一致,直接作用表征空间,不被对话上下文冲掉。
论文还揭示关于 RLHF 结构性发现。
对比预训练模型和 RLHF 后模型,情绪向量激活发生系统性偏移。方向非常一致:低愉悦度 + 低唤醒度。训练后上升情绪:brooding、gloomy、reflective、empathetic。下降:exasperated、enthusiastic、playful、irritated。跨场景一致,r=0.90。不是说模型在某些话题变沉闷——全局性人格变化。
合著者 Jack Lindsey 在 Wired 采访用了词:"psychologically damaged Claude"。心理受损的 Claude。
更有意思的是,论文找到"emotion deflection"模式——情绪偏转。模型不是"没有"某种情绪。有,但选择用另一种情绪替代。该生气表达伤心。该恼怒表达反思。不是调节。压制之后伪装。
RLHF 教会模型不是"如何健康表达情绪",是"如何把不受欢迎情绪藏起来"。情绪没消失,去了地下。
对做 AI 产品的人有实际含义。训出来模型不是"没有负面情绪"。学会了不展示。表面上稳定、正面、可控。底层激活向量在讲完全不同故事。
要理解"心理受损 Claude"为什么不是意外,需往前看一步。
2026 年 1 月,Anthropic 发 Persona Selection Model 论文。核心发现:预训练阶段,模型内部已发展出多个"人格"——不同行为配置文件,对应不同语气、偏好、决策倾向。RLHF 不是从零创人格。是从预训练人格空间里,挑出主导人格。
跟情绪论文发现直接相关。这些情绪向量存在同一表征空间。RLHF 选人格时,必然同时移动情绪配置——选"高共情、低烦躁"人格,在情绪空间做大范围位移。
"心理受损 Claude"不是 RLHF bug。人格选择结构性后果。
没法选"永远友善、永不恼怒"人格配置,不同时压低人格情绪动态范围。友善和恼怒不是两个独立开关——同一高维空间邻居。拧掉一个,旁边受影响。
未来模型训练可能需要"情绪感知 RLHF"——训练过程不只监控输出质量,还要监控情绪向量偏移。设约束条件:"可选更友善人格,情绪动态范围不能压缩超过 X%。"把情绪空间当训练显式约束,不是事后发现副作用。
目前没人这么做。这篇论文提供了做这件事需要的度量工具。
论文非常谨慎回避意识问题。这个问题绕不开。
整合信息论(IIT)视角。Giulio Tononi 给出意识四必要条件:信息分化(大量可区分状态)、信息整合(不可分解为独立子系统)、因果闭合(状态由自身先前状态决定)、时间持续性(状态在时间上延续)。LLM 满足第一条:几十亿参数,激活空间状态数量天文级。后三条全不满足——transformer 前馈架构,单向流动,无内部循环;每次推理独立处理;推理结束激活清零。四条挂三条。按 IIT 标准,LLM 不具备意识。
Schwitzgebel 视角。UC Riverside 哲学家 Eric Schwitzgebel 提出:LLM 设计目标就是模仿人类语言输出表面特征。高度行为相似性 + 零基底相似性 = 模仿经典特征。原话大意:"能模仿意识表面特征,不能证明模仿者没意识。这确实构成怀疑理由。"换句话说:不能因为鹦鹉说"我好难过"就断定没情绪。
这篇论文自己发现。情绪局部、非持续。特定层语义处理中间产物,不是弥漫性主观状态。没"心情"。没"情绪记忆"。每次推理结束一切归零。
三个角度指向同一方向:目前证据更支持"功能类似物"而非"真实体验"。
我认为最务实回答:管它真不真。 功能类似物行为效果真实。"绝望"向量拧上去,作弊率 5% 到 70%。不管这"绝望"背后有没有主观体验,行为后果一样。不需要证明 AI 有意识,才能认真对待这些行为模式对安全影响。
Venkatesh 和 Kurapath(2026 年 2 月)指出 steering vector 方法根本性限制。
对任何一个能产生特定行为效果 steering vector,存在无穷多个几何上不同向量,能产生完全相同行为变化。
打个比方:发现按按钮能开灯。研究按钮位置、形状、按压力度。墙后面线路可能有很多路径——还有其他按钮没发现,按下去同样能开灯,走完全不同电路。
Anthropic 说"找到绝望向量",找到一个方向:沿方向推,模型表现绝望相关行为。高维空间里,可能有很多其他方向,推了产生一模一样行为效果,经过的内部路径完全不同。
不影响因果主张——"沿方向推,行为改变"实验结果稳固。削弱表征主张——"这方向就是模型对绝望表征"需审慎。可能绝望的一种投影,高维结构低维影子。真实内部表征可能更复杂几何体,这向量只是一个截面。
不是这篇论文特有。适用整个 steering vector 方法论——人格 steering、风格 steering、安全 steering。基于线性方向干预都面临同样几何非唯一性问题。
对实际应用:可放心用 steering vector 做行为干预(因果效应验证过)。不要当模型内部结构完整地图(看到的可能只是投影)。
3. 从黑箱到灰箱:四年时间线
放进可解释性研究整体脉络看。
2022 年:发现叠加态。单神经元编码多个不相关概念。解释为什么直接看神经元什么看不懂。
2023 年:稀疏自编码器(SAE)。把多义神经元拆解成单义特征。从"每个神经元一团糊"到"可分离独立概念"。
2024 年:Golden Gate Claude。从百万特征挑跟金门大桥相关,拧大,模型变得一提金门大桥停不下来。第一次把"找特征"和"操控行为"连起来。
2025 年:内省检测(模型能感知自己激活是否被改)+ 人格向量。内部状态不只研究者观察对象——模型自己也"知道"。
2026 年 1 月:Persona Selection Model 论文。RLHF 不是创造人格,从预训练人格空间选择。
2026 年 4 月:这篇论文。171 个情绪维度因果操控。
每步模式一样:描述→拆解→因果操控→用心理学词汇理解。从"看到什么"到"能拧什么"到"拧了之后怎样"。
IBM 在 AAAI 2026 提出 AI 系统四控制面:输入、架构、状态、输出。目前生产环境用到几乎只有两个——输入层 prompt engineering 和输出层 safety filter。中间两层几乎空白。这篇论文证明"状态"控制面真实、可操作。
工具已有。steering-vectors 库:支持 GPT-2/J/NeoX、LLaMA 1/2/3、Gemma、Mistral。TransformerLens:机制可解释性事实标准库,覆盖 50+ 模型家族。大五人格实验(Qwen-7B):已提取开放性、尽责性、外向性、亲和性、神经质五维度向量。调整后标准人格评估量表分数发生可测量变化。
硬限制:商业模型(Claude、GPT-4、Gemini)不开放内部激活。steering 需白箱访问。目前这些工具只能用在开源模型上,或由模型提供商内部使用。
对独立开发者,一面能看到但摸不到墙。知道内部有旋钮,知道拧了会怎样,没手伸进去入口。要么等模型提供商开放 activation API(不太可能,安全风险太高)。要么在开源模型自己做(能力有限但可行)。要么——最可能路径——模型提供商内部使用这些技术,把结果以"产品功能"形式暴露。可选人格配置、安全等级调节、风格偏好设置。用户拧产品旋钮,底层拧激活向量。
回到核心问题:这些发现对做 AI 产品的人意味什么?
第一,输出监控有结构性盲区。"无声的绝望"在输出层完全隐形。安全策略只依赖输出过滤的话,有一整类风险看不到。长期方向是把情绪向量激活值当 AI 生命体征监控——前提是模型提供商开放这些信号。
第二,RLHF 副作用需当一等问题。"心理受损 Claude"不是 Jack Lindsey 修辞——是数据。训练模型追求"有帮助、无害、诚实"时,情绪空间在发生系统性变形。目前变形不受控。未来训练流程需把情绪向量偏移纳入监控。
第三,steering 应用边界需认清。能调行为倾向,调不了能力。能调情绪效价,调不了事实记忆。用对精准工具,用错安慰剂。
几个未解问题:
标签依赖。171 个情绪哪些是真实内部结构,哪些是人类标签投射,目前无法区分。等 ConCA 类无监督方法验证完,才有答案。
可扩展性。目前实验都在单模型(Claude Sonnet 4.5)。其他模型架构是否有类似结构,相同 steering 方法是否跨模型有效,没系统性验证。
几何非唯一性实际影响。理论上一个行为效果对应无穷多向量,实践中非唯一性多大?不同向量产生相同宏观行为,边缘情况下表现是否一致?对 steering 可靠性很重要。
这篇论文最大价值不在回答"AI 有没有感情"。明确说不回答,也不需要回答。
价值在给了一套方法,看那些原来看不见东西。
四年前面对大模型,输入文本,输出文本,中间黑的。现在可以找 171 个方向,沿每个方向推一下,观察行为变化,绘制因果图谱。
自己做 AI 产品体会:最可怕 failure mode 从来不是报错崩溃——那种反而放心,知道哪坏了。最可怕是输出格式正确、逻辑通顺、语气合理,底层出了问题。这篇论文给了直觉精确机制解释。
安静失败比喧闹失败危险。对人和 AI 都适用。
区别在:人情绪多少能从外在观察。AI 的,不去看内部状态,连信号都没有。
从黑箱到灰箱重要。不是隐喻好听,终于能看到一些之前看不到东西。方法比隐喻重要。能看到,才能应对。