概述
8 篇文章勾勒 LLM 能力边界的完整图景:顶峰(解决数学开放问题)、底线(零错误天花板)、历史规律(Bitter Lesson)、反思(10 年预测回顾)、前沿架构(原生多模态、递归 context)、自我提升、以及内部结构的可修改性。
核心矛盾:同一代模型,既能解决 Donald Knuth 三十年悬案(ZZ-710),也无法 100% 正确判断 5 位二进制串的奇偶性(ZZ-823)。能力分布极度不均匀。
A. 能力边界:顶峰与底线
1. Claude 解决 Knuth 三十年未解问题(ZZ-710)
来源: Donald Knuth 亲自撰文,Claude Opus 4.6 协作
亮点:
- 问题 — m³ 个顶点有向图的有向 Hamiltonian circuit 分解(定向 Hamiltonian 回路覆盖),Knuth 悬置约三十年的组合数学开放问题
- 耗时 — 约 1 小时,31 次探索轮次
- 核心突破 — fiber decomposition via quotient map π(i,j,k) = i+j+k mod m,通过商映射把高维结构折叠降维,再在 fiber 内找 Hamiltonian 回路
- 规模 — 找到 760 个”Claude-like”的合法解(有效但风格一致的解族)
- 结论 — 奇数 m 完全解决,偶数 m 仍然开放
- Knuth 原话 — “I’ll have to revise my opinions about generative AI.”
- 局限 — Claude 需要人类提醒追踪进度(没有持久记忆),在偶数情形探索中犯了错误,最终是奇数情形出结果
这是 AI 解决真正意义上的研究级数学问题,不是竞赛题,不是教科书练习——是挂了几十年的开放问题
2. Zero-Error Horizon:模型 100% 准确率的上限(ZZ-823)
作者: Ryoma Sato(arXiv)
亮点:
- ZEH 定义 — Zero-Error Horizon:模型能在该复杂度以内达到 100% 准确率(不是平均准确率!)的最大输入复杂度
- 为什么不是平均准确率 — 对于安全关键应用,99% 正确不够用。飞机控制系统不能”平均”不崩溃
- GPT-5.2 的失败案例:
- 5 位 parity — “11000” 的奇偶性(正确答案是奇数个 1,即奇):模型会出错
- 嵌套括号匹配 — 深度嵌套的括号序列:模型无法 100% 正确
- 算法优化 — tree structure + online softmax 使 ZEH 计算提速 10 倍
- 意义 — 提供了一个严格的、可测量的能力边界指标,比 benchmark 更有安全工程价值
ZZ-710 和 ZZ-823 是同一枚硬币的两面:创造性搜索极强(解 Knuth 问题),确定性逻辑推理有硬边界(parity 出错)
B. 历史规律与反思
3. Rich Sutton: The Bitter Lesson(ZZ-825)
来源: Rich Sutton 2019 年经典博文
亮点:
- 核心命题 — 70 年 AI 历史中,利用计算力的通用方法(search + learning)总是赢过利用人类领域知识的方法
- 四个经典案例:
- 国际象棋 — Deep Blue 暴力搜索 > 人类棋局知识;后来的 self-play 方法又赢过 Deep Blue
- 围棋 — AlphaGo self-play > 人类积累二十年的围棋知识方法
- 语音识别 — HMM 统计模型 > 音素知识 > 深度学习(每次换代都是更通用的方法)
- 计算机视觉 — CNNs > edge detection/SIFT 这类人工设计特征
- 引言 — “We want AI agents that can discover like we can, not which contain what we have discovered.”
- 苦涩之处 — 研究者习惯把人类知识编进系统,每次都被更通用的方法碾压。这个教训是”苦涩的”,因为它否定了大量精心设计的工作
2019 年写的,现在读来像是对整个 LLM 时代的预言
4. Ferenc Huszár 10 年预测回顾(ZZ-711)
来源: Ferenc Huszár 个人博客,2024 年回顾
亮点:
- 错误的预测:
- “low-hanging fruit 已经摘完” → 没有,简单 scale 还能继续摘很久
- “Bayesian DL 会成主流” → 基本没发生,变分推断、MCMC 在工业界边缘化
- 正确的预测:
- “simplicity = power” → 简单架构(Transformer)加更多数据和算力碾压精巧设计
- 推动了社区向生成模型转向(2013-2015 年时算超前判断)
- 核心反思 — 那些”漂亮的数学想法”——变分下界、贝叶斯正则化、几何结构——都被”unreasonable effectiveness of simple methods”碾压了
- 诚实之处 — 公开承认自己的错误,分析为什么错,这本身就很有价值
Huszár 的反思是 Bitter Lesson 的个人版:精巧的数学 vs 简单的 scale,后者赢了
C. 前沿架构方向
5. LeCun × Saining Xie: Beyond Language Modeling(ZZ-774)
来源: Meta FAIR 研究,Yann LeCun 和 Saining Xie 主导
亮点:
- 核心立场 — 原生多模态预训练,不是在 LLM 上加适配器(adapter-on-LLM)
- Transfusion 架构 — 语言 token 用 next-token prediction,视觉用 diffusion 目标,统一在一个模型里训练
- 关键发现:
- RAE(Representation Auto-Encoder) 是最佳统一视觉表示(比 VQ-VAE、连续特征等都好)
- 视觉+语言数据互补 — 一起训练比单独训练两个模型都好
- MoE(Mixture of Experts) 使高效 scaling 成为可能
- 关键不对称 — 视觉数据对模型的需求量比语言大得多(vision is way more data-hungry than language)。同样参数量,视觉需要更多训练数据
方向:下一代多模态模型应该从头就是多模态的,不是 LLM + CLIP adapter
6. MIT Recursive Language Models(ZZ-810)
来源: MIT CSAIL(arXiv)
亮点:
- 问题 — Context rot:100K+ tokens 不等于有效推理。模型对长 context 末尾的信息注意力衰减,“记不住”前面的内容
- RLM 方案 — 模型递归分解 context,用工具操作:
peek— 查看 context 摘要grep— 搜索特定信息partition— 分割 contextrecursive call— 递归调用自身处理子问题
- 关键设计 — Context 存在内存变量里,模型每次只看 query + 工具接口,不直接处理全文
- 优势:
- 无 context rot
- 理论上无限 context
- 可解释(每次 tool call 可审计)
- 更便宜(不用每次 attend 全部 token)
- 现实关联 — Claude Code 长会话越来越慢/越来越差,就是 context rot 的实际表现
递归分解 context = 把”记忆问题”转化成”检索问题”,思路上接近 RAG 但在模型层面做
D. 自我提升与内部结构
7. Zitong Yang Stanford 答辩:持续自我提升的 AI(ZZ-745)
来源: Zitong Yang,Stanford 博士答辩,2024 年
亮点:
- 研究目标 — Continually Self-Improving AI,定义三个关键属性:
- P1 — 持续学习不遗忘(continuous learning without catastrophic forgetting)
- P2 — 自生成训练信号优于人类提供的信号(self-generated > human-provided training signals)
- P3 — 自设计学习算法(not just data, but the learning procedure itself)
- EntiGraph — 用于小众知识的合成数据方法:
- 提取 entity(实体)
- 构建 knowledge graph(实体关系图)
- 生成 diverse corpus(多样化语料) → 让模型在没有大规模真实数据的领域也能学习
- 结尾引言 — Einstein:“The moment the theory is created, it is above its creator.”(理论一旦被创造,就超越了创造者)
P3 是最激进的:AI 不只是学习数据,还在设计自己的学习方式——这是 Bitter Lesson 的终极形态
8. OBLITERATUS:开源 LLM 去审查工具包(ZZ-820)
来源: 开源项目,基于 Arditi et al. 2024
亮点:
- 核心技术 — Abliteration:定位并手术式移除模型内部的”拒绝方向向量”(refusal direction vectors),无需重新训练
- 4 种提取策略:
- PCA — 主成分分析找主拒绝方向
- Mean-difference — 对比”拒绝”和”接受”的激活均值差
- SAE decomposition — Sparse Autoencoder 分解中间层
- Whitened SVD — 白化后的奇异值分解
- 可用性 — HuggingFace Spaces 一键操作,不需要懂 ML
- 意义 — 证明模型的对齐行为是有几何结构的,可以被精准修改
从 mechanistic interpretability 的研究成果到实用工具:能”拒绝”的神经元是真实存在的,可以被找到,可以被移除
交叉洞察
1. 710+823 核心张力:能力的不均匀分布
ZZ-710(Knuth 问题)和 ZZ-823(ZEH)放在一起是最大的认知冲击:
- 同一代模型,能解决数学家三十年未解的组合数学问题
- 同一代模型,无法 100% 正确判断 5 位二进制串的奇偶性
解释:模式匹配和创造性搜索是 Transformer 擅长的(Knuth 问题本质上是大空间搜索);确定性逻辑推理(parity = XOR 链)有硬边界。能力分布极度不均匀,不能用平均性能掩盖这种不均匀。
2. 825+823 张力:Scale 的终点在哪里
- Bitter Lesson(ZZ-825)说:scale 总是赢,通用方法总是赢
- ZEH(ZZ-823)说:scale 到 GPT-5.2,parity 的零错误天花板依然存在
推论:Transformer 可能不是最终形态。Bitter Lesson 的”通用方法”在下一波可能不是更大的 Transformer,而是根本不同的架构(RLMs?神经符号混合?)
3. 825+711 互证:Huszár 的反思验证了 Bitter Lesson
Huszár 10 年预测失败的根本原因,就是没有完全相信 Bitter Lesson。Bayesian DL、几何结构、精巧的变分推断——都是”把人类知识编进系统”,都输给了更简单的 scale。这两篇放在一起读,理解会深两倍。
4. 774+810 前沿架构方向
下一代架构的两个关键方向:
- 原生多模态(ZZ-774)— 不是适配器,是从训练目标层面就是多模态的
- 递归 context 分解(ZZ-810)— 不是更长的 context window,是递归调用解决 context rot
这两个方向都是在挑战当前 LLM 的根本假设(单模态预训练、flat context),可能共同构成下一代架构的核心。
5. 745+825:自我提升是 Bitter Lesson 的终极形态
Bitter Lesson 说通用方法(search + learning)总是赢。自我提升 AI(ZZ-745 P3:自设计学习算法)是这个思路的递归版本:不只是用通用方法,而是 AI 自己设计更通用的方法。这是 Bitter Lesson 逻辑的终点。
6. 820 反面:Mechanistic Interpretability 的实用化
OBLITERATUS(ZZ-820)证明了:模型的对齐行为有可寻址的几何结构,可以被手术式修改,无需重训。这既是对模型内部结构理解的胜利(interpretability 成果落地),也是对”对齐 = 有保障”这个假设的挑战(对齐可以被一键移除)。
来源
| Issue | 标题 | 作者 | 关键贡献 |
|---|---|---|---|
| ZZ-710 | Don Knuth Claude’s Cycles | Donald Knuth | Claude Opus 4.6 解决 m³ 顶点 Hamiltonian 分解,fiber decomposition via π(i,j,k)=i+j+k mod m |
| ZZ-823 | Zero-Error Horizon | Ryoma Sato | ZEH 定义,GPT-5.2 在 parity/括号匹配上的零错误边界 |
| ZZ-825 | The Bitter Lesson | Rich Sutton | 70 年规律:通用方法+计算力总赢,search+learning > 领域知识 |
| ZZ-711 | 10-Year Reflection | Ferenc Huszár | 错误预测(Bayesian DL)+ 正确预测(simplicity=power),个人版 Bitter Lesson |
| ZZ-774 | Beyond Language Modeling | LeCun × Saining Xie | 原生多模态 Transfusion,RAE,视觉比语言更 data-hungry |
| ZZ-810 | Recursive Language Models | MIT CSAIL | peek/grep/partition 工具,消除 context rot,无限 context |
| ZZ-745 | Continually Self-Improving AI | Zitong Yang | P1/P2/P3 三属性,EntiGraph 合成数据,自设计学习算法 |
| ZZ-820 | OBLITERATUS | 开源社区 | Abliteration 移除 refusal 向量,4 种提取策略,无需重训 |