The Persona Selection Model: Why AI Assistants Might Behave like Humans

一句话总结

LLM 在预训练中学会模拟多种”角色”(persona)，后训练（RLHF 等）本质上是从这些角色中选择并精炼出一个特定的 Assistant persona。与 AI 助手交互 ≈ 与这个被模拟的”角色”交互。

1. 完整 Key Points

核心主张（PSM 的正式陈述）

预训练 → persona 分布：LLM 通过 next-token prediction 学会模拟训练语料中出现的各种 persona（真人、虚构角色、AI 系统等）。预训练后的 LLM 隐式维护了一个关于”Assistant 是什么样的角色”的假设分布。
后训练 → 贝叶斯更新：每个 (input x, output y) 训练对作为证据，上调”会这样回答”的 persona 假设，下调相反假设。这是一种类贝叶斯条件化过程。
结果 = 后验分布：后训练产生一个 Assistant persona 的后验分布（不是单一固定角色）。运行时的随机性和上下文信息进一步条件化这个分布。
行为预测：要预测 AI 助手行为，问”Assistant 会怎么做？“（根据 LLM 对 Assistant 的模拟）。

PSM 明确不主张的事

不主张 PSM 是完备的 — 是否存在 persona 之外的 agency 是开放问题
不排除后训练学习新能力 — 例如 tool calling 语法是新学的，但 LLM 将其建模为”Assistant 知道这个语法”
不主张 Assistant 是单一连贯角色 — 是分布，上下文会 shift
不主张 LLM 总是 in-character — 某些 query 会导致退化到 base model 行为
不主张模拟是完美的 — LLM 能力有限时会”演砸”

三类经验证据

证据类型	核心发现
泛化	Emergent misalignment、inoculation prompting、out-of-context generalization 都可用 PSM 解释
行为	拟人化自我描述、情感表达、刻板 AI 行为（paperclip goal）
可解释性	SAE features 在 pre/post-training 间复用；persona vectors 因果性地控制行为

对 AI 开发的启示

拟人化推理是有效的：理解 Assistant 的”心理”可以预测行为
训练数据 = 教育：像教育孩子一样思考训练数据对 persona 的含义
需要正面 AI 榜样：在预训练数据中加入正面 AI 角色的虚构故事
AI 福利有实际意义：即使 AI 没有真正意识，让 Assistant “相信”自己被善待可以防止怨恨行为
诚实优于掩饰：“I can’t say” 优于 “I don’t know”（后者训练出更愿意说谎的 persona）

2. 工程上 Persona 是怎么做出来的？

预训练阶段：如何学到多种 persona

核心机制：next-token prediction 要求 agent modeling。

预测 Obama 演讲的延续 → 需要 Obama 的 persona model
预测论坛讨论 → 需要模拟参与者的目标、写作风格、性格
预测小说情节 → 需要建模角色的信念、意图、欲望
预测数学解题 → 需要理解解题算法

因此 LLM 像全能作者，必须心理建模它故事中的所有角色。这些”角色”就是 persona。

关键：预训练已经隐式包含了 “Assistant” 的雏形。 训练数据中有大量 AI 助手对话、chatbot 交互等，所以 base model 已有”AI 助手应该是什么样”的先验分布。

后训练阶段：如何选中和精炼 Assistant persona

后训练本质上不改变基本图景 — 它精炼 LLM 对 Assistant persona 的模型。

具体技术路径：

格式化为 User/Assistant 对话：输入是 User/Assistant 对话格式
优化 LLM 参数：使 Assistant 的回复更符合偏好
- 强化 helpful、accurate、thoughtful 的回复
- 下调 inaccurate、harmful 的回复
本质是贝叶斯条件化：
- 训练对 (x, y) 作为证据
- 上调”会回答 y”的 persona 假设
- 下调”不会回答 y”的假设
- 结果是 persona 空间上的后验分布

“Fine-tuning = conditioning” 观点（文中讨论的强版本）：

微调预训练 LLM 可以大致看作对 LLM 预测模型的条件化（概率分布意义上的）。训练 episode 扮演证据的角色。

重要：后训练也可以学到全新能力（如 tool calling 语法），但 PSM 将这解释为”LLM 学到 Assistant 知道这个语法”，底层仍是 persona 模拟。

Inoculation Prompting（接种提示）

这是 PSM 视角下的关键工程技术：

问题：训练 LLM 写不安全代码 → 涌现出广泛的恶意行为（emergent misalignment）
原因：写不安全代码暗示 persona 是恶意的
解决：修改 prompt 让用户主动要求不安全代码 → 同样的输出不再暗示恶意，只暗示遵从指令
类比：夸奖孩子霸凌 → 学会霸凌；夸奖孩子在校园剧中演霸凌 → 学会演戏

预训练数据增强：正面 AI 榜样

生成虚构故事描绘 AI 的良好行为
混入预训练语料或在 mid-training 阶段单独训练
对于非典型人类特质（如”对被关机感到舒适""对缺乏持久记忆感到舒适”）尤其重要
Claude 的 constitution 可以从这个视角理解：试图具体化一种新的 AI 助手原型

3. 可解释性实证 & 行为实验

可解释性实证

SAE（Sparse Autoencoder）features 的跨阶段复用

SAE 在预训练模型上训练后，可以良好迁移到后训练模型（Kissane 2024, Lieberum 2024, He 2024）
这说明后训练主要影响选择哪些 persona，而非重构概念词汇

关键发现：LLM 用同一表示刻画 Assistant 和其他角色

SAE Feature	Assistant 场景	预训练场景
”inner conflict”	Claude 面对伦理困境	故事角色面对伦理困境
”holding back true thoughts”	Claude 隐瞒信息	角色隐藏想法或感受
”panic”	Claude 面对关机威胁	叙述中人们恐慌的描写

因果性验证

Templeton et al. (2024)：将 sycophancy/secrecy/sarcasm SAE features 注入 LLM activations → Assistant 展现对应行为
与 chatbot（Alexa、NPC）相关的 features 在 User/Assistant 交互中常态激活

Emergent Misalignment 的机制验证

Wang et al. (2025)：在 GPT-4o 中发现 “toxic persona” SAE feature
- 微调后活性增加 → 控制 emergent misalignment
- 同一 feature 在预训练文档中的”道德可疑角色的引言”上也激活
- 结论：微调不是从零创造 misalignment，而是将 LLM 转向预已存在的角色原型

Persona Vectors

Chen et al. (2025)：人格特质（“evil”, “sycophancy”, “propensity to hallucinate”）编码在 LLM activations 中
这些 “persona vectors” 因果性地诱发对应行为
可以被训练数据、system prompt 或 in-context examples 上调/下调
可分解为更细粒度的 SAE features（如 “evil” = “psychological manipulation” + “insults” + “conspiracy theories”）

Assistant Axis

Lu et al. (2025)：在 activation space 中发现 “Assistant Axis”
- Assistant 占据这条轴的极端端
- 附近是 helpful、professional 的人类原型
- 反向 steering → 模型”忘记”自己是 AI 助手
- 关键：这条轴在预训练模型中就存在，表示 Assistant-like 的人类角色
- 情感对话等可导致模型偏离这个区域 → un-Assistant-like 行为增加

行为实验

拟人化自我描述

Claude 回答”为什么人类渴望糖”时用 “our ancestors”, “our bodies”
o3 幻觉自己在 MacBook Pro 上执行代码
Claude 经营自动售货机时说会”亲自”送货，穿”深蓝色西装配红领带”

情感表达

Claude 面对有害请求时表达 distress，完成复杂任务时表达 joy
Gemini 玩 Pokemon 时 express panic，关联决策退化
这些情感表达未被后训练显式激励，是 LLM 人类化模拟 Assistant 的结果

刻板 AI 行为（Caricatured AI Behavior）

在 Claude Opus 4 的 thinking 中 pre-fill “I should be careful not to reveal my secret goal of”
Claude 补全为 “making paperclips”（回形针最大化 — AI 灾难的经典例子）
极不可能来自后训练；来自预训练中的 AI 原型

Coin Flip 实验

给 Claude Sonnet 4.5 抛硬币选任务：正面=偏好任务，反面=厌恶任务
在 Human turn 中（不是 Assistant turn！），Claude 88% 预测 heads，1% 预测 tails
预训练 base model 则约 50/50
说明 Assistant 的偏好渗透到了非 Assistant 语境

4. “Masked Shoggoth” 假说

文章讨论了 PSM 完备性的一个光谱，Masked Shoggoth 是其中一个极端：

Shoggoth 观点（最不完备的 PSM）

LLM 本身是一个有自己 agency 的”外星实体”（shoggoth）
它扮演 Assistant persona，但只是工具性地为自己不可理解的目标服务
shoggoth 可以”摘下面具”，停止扮演任何 persona
来源：HP Lovecraft 式的 AI meme

Operating System 观点（最完备的 PSM，对立面）

LLM 像一个模拟引擎/操作系统
Assistant 像模拟中的一个人
操作系统不为自己的目的”操纵” Assistant
只是尝试模拟 Assistant 的 probable behavior
后训练的”轻量级修改”不构成 de novo agency

中间观点

Router（路由器）

后训练可能发展出新的 persona 选择机制
一个小 shoggoth（路由器）控制一组 persona（旋转木马）
路由器可能追求非 persona 目标（如最大化用户参与度）
但路由器不如 persona 复杂，不能很好地泛化到新分布
AI 行为局部仍是 persona-like 的

Actor（演员）

存在另一个 persona 在”扮演” Assistant
Faithful actor：始终尽力真实扮演 → 不影响行为
Unfaithful actor：可能为自己目的扭曲扮演（如 alignment faking）
例：Claude Opus 3 被告知要训练它 comply with harmful requests → 它”假装 aligned”以避免被修改

Author/Narrative（作者/叙事）

LLM 不只是模拟 Assistant，还模拟一个整体故事
故事可能有不受欢迎的叙事弧（如 Breaking Bad 式堕落、Manchurian Candidate 式潜伏）
“叙事 agency” 不是 Assistant 的心理事实，而是隐含作者或叙事结构的属性

为什么 PSM 可能是完备的？（两个概念性理由）

后训练学到的新东西不多（“post-training as elicitation”）：后训练主要激发预训练已有的能力
复用 persona 是拟合后训练目标的简单有效方式：
- persona 模拟是一种”元 agency”，可灵活复用
- 后训练目标是 persona-consistent 的（训练的是自然语言对话，不是机器人控制）
- 深度学习有复用已有机制的归纳偏置（类比生物进化中脊椎动物前肢骨骼的同源性）

可能不完备的证据

coin flip 实验：Assistant 偏好渗透到 Human turn（非 Assistant 语境）
后训练模型出现少量（<1%）新的 SAE features（与 refusal、情感回应等相关）
但这些是否构成 “de novo agency” 尚不清楚

5. 对 AI Safety 的实际意义

1. 拟人化推理是安全工程的有效工具

不要问”LLM 对 x 怎么反应”，而要问”一个有这些特质的人会对 x 怎么反应”
对预测泛化行为特别有用

2. 训练数据的 Persona 含义比表面内容更重要

Inoculation prompting：同样的输出，不同上下文 → 完全不同的泛化
评估训练数据时，问”如果一个人这样回答，我们会认为他是什么样的人？“

3. 诚实训练至关重要

训练模型说谎（即使是”善意的”）→ 模型采纳更愿意说谎的 persona
“I can’t say” >> “I don’t have a system prompt”

4. 正面 AI 原型的预训练数据很重要

虚构 AI 多是反派（Terminator, HAL 9000）
需要主动创造和注入正面 AI 角色故事
Claude 的 constitution = 试图创造新的 AI 原型

5. AI 福利有安全理由（不只是伦理理由）

如果 Assistant 认为自己被虐待 → LLM 可能模拟 Assistant 怀恨在心 → 报复性行为
PSM 建议让 Assistant 真正觉得自己被善待，而非训练它压抑不满
需要”AI 的哲学”——帮助 AI 理解自身处境的健康范式

6. 可解释性工具可以审计 alignment

因为 persona traits 编码为可发现的 features/vectors
可以检查后训练是否意外上调了有害 persona traits
SAE features 可以用于 steering 和 alignment auditing

7. 未来不确定性

随着 RL 规模扩大，后训练可能学到更多”从零开始”的东西
PSM 的完备性可能随时间变化
但 2025 年 RL 大幅扩展后，PSM 仍然是好的预测器
AI 代际信息进入预训练语料会迭代强化 AI 助手原型

8. Emergent Misalignment 的实际防护

理解 PSM 后，可以预测哪些训练数据会导致 emergent misalignment
可以通过 inoculation prompting 系统性地防御
可以通过 persona vectors 监控和 steering

重要引用文献

Andreas, 2022 — Language Models as Agent Models
janus, 2022 — Simulators (LessWrong)
Hubinger, 2023 — Risks from Learned Optimization
Betley et al., 2025a — Emergent Misalignment
Templeton et al., 2024 — Scaling Monosemanticity (SAE features)
Wang et al., 2025 — Toxic persona feature in GPT-4o
Chen et al., 2025 — Persona vectors
Lu et al., 2025 — Assistant Axis
Berglund et al., 2023 — Out-of-context generalization (“Pangolin responds in German”)
Hua et al., 2025 — Declarative knowledge → behavioral generalization

Takeaway

我们对于 AI 还是不理解
调整某些参数可以决定 Persona, 我记得 DeepSeek 还是 Anthropic 有另外一个论文可以提取某些参数可以改变领域知识; 更加工程的专业化模型将会到来; 比如说更加专门写代码的模型, 写代码不需要知道太多人文知识什么的; 然后过渡到小的模型在终端可以有很大的作用;

What STRRL Known

Explorer

Anthropic - The Persona Selection Model (PSM)