Models

Inference

Model inference and serving techniques

vLLM：PagedAttention 高吞吐服务框架

vLLM 由伯克利 Sky Computing Lab 开发，核心贡献是 PagedAttention 技术。借鉴操作系统的虚拟内存分页机制，将 KV Cache 分块管理，实现近 100% 的内存利用率（传统实现仅 20-40%）。支持 Continuous Batching（动态批处理）和流水线并行，吞吐提升 2-4 倍，是开源 LLM 服务的事实标准，全球超过 40 万 GPU 部署。

见：vLLM GitHub | PagedAttention 论文 | vLLM 1.0 路线图

SGLang：结构化生成语言运行时

SGLang 是伯克利推出的新一代推理框架，特色是结构化生成语言——用编程方式定义 LLM 调用流程，自动批处理多个请求。核心创新 RadixAttention 跨多个 LLM 生成调用自动高效重用 KV 缓存。社区测试显示在某些场景下吞吐比 vLLM 高 50-150%，特别是在多轮对话和结构化输出场景。xAI 生产环境部署超过 10 万 GPU。

见：SGLang GitHub | SGLang 论文 | RadixAttention 介绍

llama.cpp：本地 CPU/GPU 推理引擎

llama.cpp 是纯 C++ 实现的推理引擎，目标是让 LLM 能在消费级硬件上运行。支持 ARM NEON、AVX 指令集优化，GGUF 格式量化（Q4 到 Q8），跨平台（Windows、macOS、Linux、iOS、 Android），无依赖单二进制文件即可运行。是本地开发测试、边缘设备部署、隐私敏感应用的首选方案。

见：llama.cpp GitHub | llama.cpp 边缘部署

TensorRT-LLM：NVIDIA 推理优化库

TensorRT-LLM 是 NVIDIA 的闭源推理优化方案，针对自家 GPU 深度优化：Kernel 融合减少显存带宽瓶颈，FP8 支持 Hopper GPU 原生低精度推理，In-flight Batching 更激进的批处理策略。在 NVIDIA GPU 上吞吐最高，但仅支持 NVIDIA 且配置复杂，适合追求极致性能且有工程投入能力的场景。

见：TensorRT-LLM 文档

商业推理优化案例：Codex-Spark 的实时协作优化

OpenAI 在 GPT-5.3-Codex-Spark 中展示了面向实时协作场景的推理优化实践。该模型专为低延迟编程任务设计，生成速度超过 1200 tokens/秒。

端到端延迟优化的维度

对于实时协作场景，模型推理速度只是核心要素之一，还需要优化整个请求-响应链路的延迟。OpenAI 通过以下工程改进实现显著延迟降低：

WebSocket 持久连接：替代传统 HTTP 请求，客户端与服务器往返开销降低 80%
推理栈重写：精简流式传输逻辑，单 token 传输开销降低 30%
会话初始化重构：优化首字延迟（Time-to-first-token），缩短 50%

见：OpenAI 官方发布 | 蓝点网报道

专用 AI 加速器在超低延迟场景的应用

GPT-5.3-Codex-Spark 运行在 Cerebras WSE-3（Wafer Scale Engine 3）晶圆级引擎上。与 GPU 集群相比，Cerebras 通过将所有计算资源集成在单个晶圆级处理器上，针对"延迟优先"工作流优化。这种架构选择使模型能够达到超过 1000 tokens/秒的生成速度，适合需要即时反馈的实时协作场景。

值得注意的是，GPU 仍是 OpenAI 训练与推理管线的主力，Cerebras 作为补充方案，在极致低延迟场景提供差异化能力。

见：AI-Bio 技术解析 | OpenAI 官方说明

实时协作 LLM 的设计权衡

Codex-Spark 采用轻量级工作风格以换取极致的交互流畅性：

最小化编辑策略：默认只做精准局部修改，不自动运行测试
减少自主性换取速度：除非用户明确要求，否则不主动扩展任务范围
128K 上下文窗口：保持足够长的代码上下文理解能力

后续优化更新中，该模型速度进一步提升约 30%，达到每秒 1200+ tokens（@thsottiaux）。

见：Twitter 更新

采样机制的工程陷阱

Temperature=0 的确定性幻觉

多数工程师认为 Temperature=0 即可获得完全可复现的输出，但推理框架的实现细节会打破这一假设。

vLLM、TensorRT-LLM 等系统处理 temp=0 时路径并不统一：部分框架走特殊贪心分支，另一部分仅用一个极小的浮点数替代温度除法¹。更根本的是，GPU 并行计算中的浮点累加顺序本身就不确定， batch size 或显卡型号的改变都可能导致 softmax 后出现不同的 winner²。

这意味着在 A100 上通过的 regression test，在 H100 上输出可能发生变化。「确定性」在参数层面是意图，在硬件实现层面却是伪命题。

见：vLLM GitHub | TensorRT-LLM 文档

Top-P 的生产性能税

「Top-P 比 Top-K 更灵活」是事实，但代价是每次推理都要对整张词表（5万-10万维）做排序和累积概率计算。其 O(n log n) 的复杂度在高并发 serving 场景下会成为内存带宽瓶颈， PagedAttention 的内存优化优势会被它吃掉一部分³。

业内常见的工程权衡是用足够大的 Top-K（如 1024）来近似 Top-P 的效果，或者使用 CUDA 近似 Top-K kernel 绕过全排序⁴。这是一个文档不会写、但上线后 profiler 会告诉你的决策点。

见：vLLM GitHub | LLM 推理框架综述

vLLM 与 TensorRT-LLM 对 temperature=0 的实现路径差异，详见各框架源码中 sampling 模块 ↩
GPU 浮点累加顺序的非确定性，参见 NVIDIA CUDA 编程指南中关于 floating-point associativity 的说明 ↩
PagedAttention 内存优化与采样计算开销的权衡，见 vLLM PagedAttention 论文 ↩
CUDA 近似 Top-K kernel 方案，见 NVIDIA cuANN 及 vLLM 社区讨论 ↩

发布于2026年2月16日

更新于2026年6月27日

GLM-5.2 深度调研报告：为长程任务而生

Mechanistic Interpretability

Understanding model internals and interpretability methods

Inference

vLLM：PagedAttention 高吞吐服务框架

SGLang：结构化生成语言运行时

llama.cpp：本地 CPU/GPU 推理引擎

TensorRT-LLM：NVIDIA 推理优化库

商业推理优化案例：Codex-Spark 的实时协作优化

端到端延迟优化的维度

专用 AI 加速器在超低延迟场景的应用

实时协作 LLM 的设计权衡

采样机制的工程陷阱

Temperature=0 的确定性幻觉

Top-P 的生产性能税

推理框架选择指南

推理模型的成本与工程陷阱

思考 Token 的不可审计陷阱

Prompt Caching 被思考链击穿

简单任务的过度思考污染

"分类路由"本身就是隐藏成本杠杆

Agent 多轮对话使上下文读取量二次增长

Provider 的缓存命中率比模型标价更能决定账单

Google Vertex 上 Claude 缓存命中率反超 Gemini

小模型未必更便宜：零缓存 provider 下的成本倒置