基础设施 & 分布式系统参考(2026-W10)

本文汇总本周归档的 8 个基础设施与分布式系统相关条目,涵盖分布式推理、Durable Execution、向量数据库、Prefill-Decode 分离、区块链框架及系统可靠性思维等话题。


1. Building Resilient Distributed Systems(ZZ-69)

构建弹性分布式系统的基础读物。分布式系统的核心挑战在于:网络分区、节点失效、时钟不同步。弹性设计需要在 CAP 约束下做取舍,围绕 retry、circuit breaker、idempotency、backpressure 等模式构建容错边界。

关键词:fault tolerance、CAP theorem、circuit breaker、idempotency


2. Durable Execution / Durable Computing(ZZ-33)

Durable Execution 是让程序在崩溃后能从断点恢复的执行范式——把函数调用栈持久化,crash 后重放历史重建状态。

代表性框架:

  • Hatchet — 任务队列 + workflow 引擎,支持 durable execution
  • DBOS — 基于数据库的 durable computing 平台
  • Trigger.dev — developer-friendly 后台 job 平台
  • Golem Cloud — WASM-based durable computing,提出”The Emerging Landscape of Durable Computing”

与 AI Agent 的关联: Agent 天然具备异步性质,长任务中间可能 crash,durable execution 能让 agent workflow 从失败处继续而不是重头来过。Pydantic AI 已经集成了多家 durable execution 解决方案。

关键词:durable execution、workflow persistence、agent reliability、crash recovery


3. 分布式推理框架对比 — LWS vs RBG vs Expert Parallelism(ZZ-379)

将大模型推理任务分布到多节点的编排框架,核心解决单机 GPU 不足的问题。

框架对比:

框架全称来源特点
LWSLeaderWorkerSetKubernetes SIGsK8s operator,封装 leader-worker StatefulSet,入门友好
RBGRoleBasedGroupSGLang 项目在 LWS 之上再包一层,支持多角色协作和内置服务发现,上手难度更高

EP(Expert Parallelism): MoE 模型中不同 expert 分布到不同 GPU 并行计算,是大规模 MoE 推理的关键并行策略。

个人判断: 没有统一标准框架,尤其 diffusion 类模型。从编排视角,LWS 适合入门理解基础分布式推理;RBG 更强大但更复杂。

关键词:distributed inference、LWS、RBG、Expert Parallelism、MoE、Kubernetes


4. PD 分离(Prefill-Decode Disaggregation)(ZZ-67)

LLM 推理的两个阶段——Prefill(处理 prompt)和 Decode(逐 token 生成)——在计算特性上截然不同:

  • Prefill:compute-bound,高并行度,适合大批量
  • Decode:memory-bandwidth-bound,低并行度,需要低延迟

PD 分离将两者部署在不同硬件上,分别优化,显著提升吞吐和降低延迟。

视频来源:BiliBili BV1UJS8BREGo(科普视频,质量不错但流量意外地少)

关键词:prefill-decode disaggregation、LLM inference、memory bandwidth、KV cache


5. LanceDB on Kubernetes(KubeCon Talk)(ZZ-86)

LanceDB 在 KubeCon 上分享了在 Kubernetes 上运行向量数据库的实践。LanceDB 是基于 Lance 列式格式构建的嵌入式/serverless 向量数据库,原生支持多模态数据。

来源:@lancedb Twitter

关键词:LanceDB、vector database、Kubernetes、KubeCon、embedding


6. 为什么基础设施开源重要(ZZ-74)

慧姐(微信公众号)的文章,探讨基础设施开源的战略意义:

  • 开源基础设施降低行业整体成本,加速创新扩散
  • 商业公司通过开源建立技术话语权和生态影响力
  • 开源基础设施是中立性的保证——没有单一供应商锁定
  • 社区贡献提升软件质量和安全性

原文:微信公众号文章

关键词:open source infrastructure、vendor lock-in、ecosystem、community


7. Substrate Chain — Polkadot 生态开发框架(ZZ-381)

Substrate 是 Polkadot 生态的核心区块链开发框架:

  • 模块化:通过 FRAME pallet 系统组合功能模块(共识、治理、资产等)
  • 可升级:链上 runtime 可无 hard fork 升级,逻辑存储在链上
  • 互操作性:基于 Substrate 的链可作为 parachain 接入 Polkadot 中继链

对比 commenware.xyz: 两者都在做 Web3 基础设施,Substrate 更通用,commenware 更专注于特定场景。

参考:Substrate 介绍文章

关键词:Substrate、Polkadot、parachain、FRAME、blockchain framework、runtime upgrade


8. 为什么我不喜欢 COE(Correction of Errors)(ZZ-220)

来自 Surfing Complexity 博客 的系统思维文章,批判传统事后复盘(COE/Post-mortem)的局限性。

核心论点:

  • 将故障简单归因于”错误”的思维是危险的简化
  • 复杂系统中,缺陷永远存在——没有缺陷的系统是理想,不是现实
  • 传统 COE 聚焦于”哪里出错了”,导致堆叠约束和过度流程化
  • 更应该问的问题:“正常工作是如何发生的?“(Safety-II 思维)
  • 系统弹性来自人与系统之间的适应性交互,而非消除所有错误

启示: 与其追求零缺陷,不如构建能快速检测、快速恢复的系统(Resilience Engineering)。

关键词:COE、post-mortem、Safety-II、complex systems、resilience engineering、correction of errors


主题小结

本周基础设施条目集中在两个方向:

  1. AI 推理基础设施:分布式推理编排(LWS/RBG/EP)、PD 分离、向量数据库上 K8s——体现了大模型推理从单机走向集群的基础设施演进趋势。

  2. 系统可靠性思维:Durable Execution(crash 恢复)、COE 批判(Safety-II 复杂系统视角)——体现了从”防止故障”到”设计韧性”的思维转变。