概述

8 篇文章勾勒 LLM 能力边界的完整图景:顶峰(解决数学开放问题)、底线(零错误天花板)、历史规律(Bitter Lesson)、反思(10 年预测回顾)、前沿架构(原生多模态、递归 context)、自我提升、以及内部结构的可修改性。

核心矛盾:同一代模型,既能解决 Donald Knuth 三十年悬案(ZZ-710),也无法 100% 正确判断 5 位二进制串的奇偶性(ZZ-823)。能力分布极度不均匀。


A. 能力边界:顶峰与底线

1. Claude 解决 Knuth 三十年未解问题(ZZ-710)

来源: Donald Knuth 亲自撰文,Claude Opus 4.6 协作

亮点:

  • 问题 — m³ 个顶点有向图的有向 Hamiltonian circuit 分解(定向 Hamiltonian 回路覆盖),Knuth 悬置约三十年的组合数学开放问题
  • 耗时 — 约 1 小时,31 次探索轮次
  • 核心突破 — fiber decomposition via quotient map π(i,j,k) = i+j+k mod m,通过商映射把高维结构折叠降维,再在 fiber 内找 Hamiltonian 回路
  • 规模 — 找到 760 个”Claude-like”的合法解(有效但风格一致的解族)
  • 结论 — 奇数 m 完全解决,偶数 m 仍然开放
  • Knuth 原话 — “I’ll have to revise my opinions about generative AI.”
  • 局限 — Claude 需要人类提醒追踪进度(没有持久记忆),在偶数情形探索中犯了错误,最终是奇数情形出结果

这是 AI 解决真正意义上的研究级数学问题,不是竞赛题,不是教科书练习——是挂了几十年的开放问题

2. Zero-Error Horizon:模型 100% 准确率的上限(ZZ-823)

作者: Ryoma Sato(arXiv)

亮点:

  • ZEH 定义 — Zero-Error Horizon:模型能在该复杂度以内达到 100% 准确率(不是平均准确率!)的最大输入复杂度
  • 为什么不是平均准确率 — 对于安全关键应用,99% 正确不够用。飞机控制系统不能”平均”不崩溃
  • GPT-5.2 的失败案例:
    • 5 位 parity — “11000” 的奇偶性(正确答案是奇数个 1,即奇):模型会出错
    • 嵌套括号匹配 — 深度嵌套的括号序列:模型无法 100% 正确
  • 算法优化 — tree structure + online softmax 使 ZEH 计算提速 10 倍
  • 意义 — 提供了一个严格的、可测量的能力边界指标,比 benchmark 更有安全工程价值

ZZ-710 和 ZZ-823 是同一枚硬币的两面:创造性搜索极强(解 Knuth 问题),确定性逻辑推理有硬边界(parity 出错)


B. 历史规律与反思

3. Rich Sutton: The Bitter Lesson(ZZ-825)

来源: Rich Sutton 2019 年经典博文

亮点:

  • 核心命题 — 70 年 AI 历史中,利用计算力的通用方法(search + learning)总是赢过利用人类领域知识的方法
  • 四个经典案例:
    1. 国际象棋 — Deep Blue 暴力搜索 > 人类棋局知识;后来的 self-play 方法又赢过 Deep Blue
    2. 围棋 — AlphaGo self-play > 人类积累二十年的围棋知识方法
    3. 语音识别 — HMM 统计模型 > 音素知识 > 深度学习(每次换代都是更通用的方法)
    4. 计算机视觉 — CNNs > edge detection/SIFT 这类人工设计特征
  • 引言 — “We want AI agents that can discover like we can, not which contain what we have discovered.”
  • 苦涩之处 — 研究者习惯把人类知识编进系统,每次都被更通用的方法碾压。这个教训是”苦涩的”,因为它否定了大量精心设计的工作

2019 年写的,现在读来像是对整个 LLM 时代的预言

4. Ferenc Huszár 10 年预测回顾(ZZ-711)

来源: Ferenc Huszár 个人博客,2024 年回顾

亮点:

  • 错误的预测:
    • “low-hanging fruit 已经摘完” → 没有,简单 scale 还能继续摘很久
    • “Bayesian DL 会成主流” → 基本没发生,变分推断、MCMC 在工业界边缘化
  • 正确的预测:
    • “simplicity = power” → 简单架构(Transformer)加更多数据和算力碾压精巧设计
    • 推动了社区向生成模型转向(2013-2015 年时算超前判断)
  • 核心反思 — 那些”漂亮的数学想法”——变分下界、贝叶斯正则化、几何结构——都被”unreasonable effectiveness of simple methods”碾压了
  • 诚实之处 — 公开承认自己的错误,分析为什么错,这本身就很有价值

Huszár 的反思是 Bitter Lesson 的个人版:精巧的数学 vs 简单的 scale,后者赢了


C. 前沿架构方向

5. LeCun × Saining Xie: Beyond Language Modeling(ZZ-774)

来源: Meta FAIR 研究,Yann LeCun 和 Saining Xie 主导

亮点:

  • 核心立场 — 原生多模态预训练,不是在 LLM 上加适配器(adapter-on-LLM)
  • Transfusion 架构 — 语言 token 用 next-token prediction,视觉用 diffusion 目标,统一在一个模型里训练
  • 关键发现:
    • RAE(Representation Auto-Encoder) 是最佳统一视觉表示(比 VQ-VAE、连续特征等都好)
    • 视觉+语言数据互补 — 一起训练比单独训练两个模型都好
    • MoE(Mixture of Experts) 使高效 scaling 成为可能
  • 关键不对称 — 视觉数据对模型的需求量比语言大得多(vision is way more data-hungry than language)。同样参数量,视觉需要更多训练数据

方向:下一代多模态模型应该从头就是多模态的,不是 LLM + CLIP adapter

6. MIT Recursive Language Models(ZZ-810)

来源: MIT CSAIL(arXiv)

亮点:

  • 问题 — Context rot:100K+ tokens 不等于有效推理。模型对长 context 末尾的信息注意力衰减,“记不住”前面的内容
  • RLM 方案 — 模型递归分解 context,用工具操作:
    • peek — 查看 context 摘要
    • grep — 搜索特定信息
    • partition — 分割 context
    • recursive call — 递归调用自身处理子问题
  • 关键设计 — Context 存在内存变量里,模型每次只看 query + 工具接口,不直接处理全文
  • 优势:
    • 无 context rot
    • 理论上无限 context
    • 可解释(每次 tool call 可审计)
    • 更便宜(不用每次 attend 全部 token)
  • 现实关联 — Claude Code 长会话越来越慢/越来越差,就是 context rot 的实际表现

递归分解 context = 把”记忆问题”转化成”检索问题”,思路上接近 RAG 但在模型层面做


D. 自我提升与内部结构

7. Zitong Yang Stanford 答辩:持续自我提升的 AI(ZZ-745)

来源: Zitong Yang,Stanford 博士答辩,2024 年

亮点:

  • 研究目标 — Continually Self-Improving AI,定义三个关键属性:
    • P1 — 持续学习不遗忘(continuous learning without catastrophic forgetting)
    • P2 — 自生成训练信号优于人类提供的信号(self-generated > human-provided training signals)
    • P3 — 自设计学习算法(not just data, but the learning procedure itself)
  • EntiGraph — 用于小众知识的合成数据方法:
    1. 提取 entity(实体)
    2. 构建 knowledge graph(实体关系图)
    3. 生成 diverse corpus(多样化语料) → 让模型在没有大规模真实数据的领域也能学习
  • 结尾引言 — Einstein:“The moment the theory is created, it is above its creator.”(理论一旦被创造,就超越了创造者)

P3 是最激进的:AI 不只是学习数据,还在设计自己的学习方式——这是 Bitter Lesson 的终极形态

8. OBLITERATUS:开源 LLM 去审查工具包(ZZ-820)

来源: 开源项目,基于 Arditi et al. 2024

亮点:

  • 核心技术 — Abliteration:定位并手术式移除模型内部的”拒绝方向向量”(refusal direction vectors),无需重新训练
  • 4 种提取策略:
    1. PCA — 主成分分析找主拒绝方向
    2. Mean-difference — 对比”拒绝”和”接受”的激活均值差
    3. SAE decomposition — Sparse Autoencoder 分解中间层
    4. Whitened SVD — 白化后的奇异值分解
  • 可用性 — HuggingFace Spaces 一键操作,不需要懂 ML
  • 意义 — 证明模型的对齐行为是有几何结构的,可以被精准修改

从 mechanistic interpretability 的研究成果到实用工具:能”拒绝”的神经元是真实存在的,可以被找到,可以被移除


交叉洞察

1. 710+823 核心张力:能力的不均匀分布

ZZ-710(Knuth 问题)和 ZZ-823(ZEH)放在一起是最大的认知冲击:

  • 同一代模型,能解决数学家三十年未解的组合数学问题
  • 同一代模型,无法 100% 正确判断 5 位二进制串的奇偶性

解释:模式匹配和创造性搜索是 Transformer 擅长的(Knuth 问题本质上是大空间搜索);确定性逻辑推理(parity = XOR 链)有硬边界。能力分布极度不均匀,不能用平均性能掩盖这种不均匀。

2. 825+823 张力:Scale 的终点在哪里

  • Bitter Lesson(ZZ-825)说:scale 总是赢,通用方法总是赢
  • ZEH(ZZ-823)说:scale 到 GPT-5.2,parity 的零错误天花板依然存在

推论:Transformer 可能不是最终形态。Bitter Lesson 的”通用方法”在下一波可能不是更大的 Transformer,而是根本不同的架构(RLMs?神经符号混合?)

3. 825+711 互证:Huszár 的反思验证了 Bitter Lesson

Huszár 10 年预测失败的根本原因,就是没有完全相信 Bitter Lesson。Bayesian DL、几何结构、精巧的变分推断——都是”把人类知识编进系统”,都输给了更简单的 scale。这两篇放在一起读,理解会深两倍。

4. 774+810 前沿架构方向

下一代架构的两个关键方向:

  • 原生多模态(ZZ-774)— 不是适配器,是从训练目标层面就是多模态的
  • 递归 context 分解(ZZ-810)— 不是更长的 context window,是递归调用解决 context rot

这两个方向都是在挑战当前 LLM 的根本假设(单模态预训练、flat context),可能共同构成下一代架构的核心。

5. 745+825:自我提升是 Bitter Lesson 的终极形态

Bitter Lesson 说通用方法(search + learning)总是赢。自我提升 AI(ZZ-745 P3:自设计学习算法)是这个思路的递归版本:不只是用通用方法,而是 AI 自己设计更通用的方法。这是 Bitter Lesson 逻辑的终点。

6. 820 反面:Mechanistic Interpretability 的实用化

OBLITERATUS(ZZ-820)证明了:模型的对齐行为有可寻址的几何结构,可以被手术式修改,无需重训。这既是对模型内部结构理解的胜利(interpretability 成果落地),也是对”对齐 = 有保障”这个假设的挑战(对齐可以被一键移除)。


来源

Issue标题作者关键贡献
ZZ-710Don Knuth Claude’s CyclesDonald KnuthClaude Opus 4.6 解决 m³ 顶点 Hamiltonian 分解,fiber decomposition via π(i,j,k)=i+j+k mod m
ZZ-823Zero-Error HorizonRyoma SatoZEH 定义,GPT-5.2 在 parity/括号匹配上的零错误边界
ZZ-825The Bitter LessonRich Sutton70 年规律:通用方法+计算力总赢,search+learning > 领域知识
ZZ-71110-Year ReflectionFerenc Huszár错误预测(Bayesian DL)+ 正确预测(simplicity=power),个人版 Bitter Lesson
ZZ-774Beyond Language ModelingLeCun × Saining Xie原生多模态 Transfusion,RAE,视觉比语言更 data-hungry
ZZ-810Recursive Language ModelsMIT CSAILpeek/grep/partition 工具,消除 context rot,无限 context
ZZ-745Continually Self-Improving AIZitong YangP1/P2/P3 三属性,EntiGraph 合成数据,自设计学习算法
ZZ-820OBLITERATUS开源社区Abliteration 移除 refusal 向量,4 种提取策略,无需重训