Cloud Native AI/ML Landscape

1. 模型推理引擎(Inference Engines)

项目维护方定位
vLLMUC Berkeley / 社区LLM 专用,PagedAttention
SGLangUC Berkeley LMSYSLLM + 结构化生成,RadixAttention
Triton Inference ServerNVIDIA通用多后端推理服务器
TensorRT-LLMNVIDIALLM 推理优化(编译优化)
llama.cpp / ollama社区轻量级本地推理,CPU/消费级 GPU
TGI (Text Generation Inference)Hugging FaceLLM serving,HF 生态集成

2. 模型 Serving / 编排(Model Serving & Orchestration)

项目维护方定位
KServeRed Hat + CNCF 社区K8s 原生模型 serving 框架,标准化推理协议
Seldon CoreSeldon模型部署 + A/B 测试 + 可解释性
BentoMLBentoML模型打包 + serving,开发者友好
Ray ServeAnyscale基于 Ray 的模型 serving,支持复杂 pipeline
llm-dRed HatKServe 的 LLM 专用数据面,KV-cache aware 调度

3. 调度与资源管理(Scheduling & Resource Management)

项目维护方定位
Volcano华为 / CNCFK8s batch/AI 调度器,gang scheduling
Kthena华为 Volcano 团队Volcano 子项目,LLM 推理编排
KueueGoogle / K8s SIGK8s 原生作业队列,quota 管理
YuniKornApache大数据/ML 统一调度器
DRA (Dynamic Resource Allocation)K8s SIGK8s 1.30+ GPU/加速器动态分配

4. GPU 虚拟化与共享(GPU Virtualization & Sharing)

项目维护方定位
NVIDIA GPU OperatorNVIDIAK8s GPU 全栈管理(驱动、插件、监控)
NVIDIA MPSNVIDIA多进程共享 GPU
NVIDIA MIGNVIDIAA100/H100 硬件级 GPU 分区
HAMi (k8s-vGPU-scheduler)社区K8s GPU 虚拟化 + 显存/算力隔离
Fluid阿里 / CNCF Sandbox数据集编排和加速(缓存亲和调度)

5. 训练平台(Training Platforms)

项目维护方定位
KubeflowGoogle / CNCF端到端 ML 平台(训练 + pipeline + notebook)
Kubeflow Training OperatorCNCF 社区分布式训练(PyTorch/TensorFlow/MPI)
DeepSpeedMicrosoft大模型分布式训练优化
Megatron-LMNVIDIA大规模 LLM 训练框架
Ray TrainAnyscale基于 Ray 的分布式训练

6. ML Pipeline / Workflow

项目维护方定位
Kubeflow PipelinesGoogle / CNCFML pipeline 编排
Argo WorkflowsAkuity / CNCF通用 K8s workflow 引擎
MLflowDatabricks / Linux Foundation实验跟踪 + 模型注册 + 部署
FlyteUnion.ai / Linux Foundation类型安全的 ML workflow
MetaflowNetflix / Outerbounds数据科学 workflow

7. 模型注册与格式(Model Registry & Formats)

项目维护方定位
Hugging Face HubHugging Face模型/数据集托管平台
OCI Artifacts / ORASOCI / CNCF用容器 registry 存储模型
ModelCar (KServe)KServe 社区OCI image 打包模型,init container 加载
ONNXLinux Foundation跨框架模型交换格式
SafetensorsHugging Face安全高效的模型权重格式

8. 可观测性与 AI Gateway

项目维护方定位
OpenTelemetry + GenAI SIGCNCFLLM 调用的 trace/metrics 标准化
Envoy AI GatewayEnvoy / CNCFLLM 流量管理(路由、限流、可观测)
LiteLLM社区多 LLM provider 统一代理
PortkeyPortkeyAI Gateway(缓存、fallback、审计)

9. Vector Database / RAG 基础设施

项目维护方定位
MilvusZilliz / Linux Foundation云原生向量数据库
WeaviateWeaviate向量数据库 + 混合搜索
QdrantQdrantRust 实现的向量数据库
ChromaChroma轻量嵌入式向量数据库
pgvector社区PostgreSQL 向量搜索扩展

全景总结

用户请求
  ↓
[AI Gateway / 路由] ← Envoy AI Gateway, LiteLLM
  ↓
[Model Serving 编排] ← KServe, Seldon, BentoML
  ↓
[推理引擎] ← vLLM, SGLang, Triton, TGI
  ↓
[GPU 调度与共享] ← Volcano/Kthena, Kueue, DRA, HAMi
  ↓
[GPU 硬件] ← GPU Operator, MIG, MPS

[训练侧]  Kubeflow, DeepSpeed, Ray Train
[Pipeline] Argo, Kubeflow Pipelines, MLflow
[数据]     Fluid, Vector DB (Milvus, pgvector)
[可观测]   OpenTelemetry GenAI SIG