Datadog LLM Observability - Lionad's Blog and KnowledgeBase

Brief

Datadog LLM Observability 为大语言模型与 Agent 型应用的工作流提供端到端的追踪、监控与诊断。它将每个提示、工具调用与中间步骤映射为 spans 与 traces；跟踪时延、Token 用量、错误与质量指标；并与 Datadog 更广泛的 APM 与可观测性套件集成。

对于已在使用 Datadog、熟悉其成本结构的组织而言，只要工作负载能够被正确埋点，LLM 可观测性功能是获取 AI 工作负载可见性的直接路径。然而，LLM 埋点的配置与使用需要谨慎，且要求对工作负载及其实现有扎实理解。我们建议数据工程与运维团队在部署时密切协作。另参见我们关于避免“独立数据工程团队”的建议。

来源：技术雷达

Details

背景与现状

为什么现在需要 LLM 可观测性

LLM 与 Agent 的执行链路多跳、多工具，错误与延迟来源分散，传统日志难以还原根因。
业务开始关注“质量/成本/延迟”的三角平衡，需要可度量、可回溯的数据来支撑优化与治理。
已采用 Datadog 的组织希望在既有 APM/指标/告警框架内统一治理 AI 工作负载。

问题与风险

典型痛点与结构性矛盾

黑盒链路：提示模板、模型版本、工具调用与外部依赖交织，缺乏统一 Trace 视角。
成本不透明：高频调用与高基数标签可能放大观测成本与数据基建开销。
质量不可证：离线评测与线上表现常不一致，缺少面向场景的线上质量度量。
数据敏感性：提示/上下文可能含敏感信息，原样上报带来合规与泄露风险。
变更不可控：Prompt/模型/工具变更缺乏版本化与灰度策略，出现“回不去”的质量回退。

模式与原理

端到端追踪的核心抽象

Trace 代表一次业务请求或 Agent 任务；Span 对应关键阶段：Prompt、Tool 调用、检索、Rerank、模型推理等。
关键维度建议：model 与版本、prompt 模板哈希、调用角色（system/user/assistant）、工具名称、数据来源、采样率、租户/业务线、请求规模（tokens in/out）。
关键事件：超时、重试、截断、Rate Limit、供应商错误码、Guardrail 触发、回退策略命中。

指标与质量度量

性能：P50/P95/P99 时延；队列等待与推理时延拆分；工具调用成功率与尾部延迟。
成本：输入/输出 Token、推理时长、供应商计费单位；按租户/场景聚合。
质量：规则型指标（拒识率/敏感命中率/格式合规率）、业务型指标（任务成功率/人工复核通过率）、系统性指标（对话步数、回退率）。
关联：将线上评审样本与 Trace 绑定，形成“问题案例可复现”的闭环。

与 APM 的集成方式

传递 Trace/Span 上下文贯穿 Web/API → 编排层 → 工具/检索 → 模型调用。
统一告警与 SLO：以业务成功率、P99 延迟、成本预算为主指标，结合异常分布与错误比率。
看板与探索：按模型/版本、Prompt 哈希、工具类型、租户维度钻取，定位“谁最贵/最慢/最不稳定”。

成本与数据治理

采样优先：对低风险流量进行采样，对错误/高延迟/高成本请求提升采样比。
降基数：对长文本做哈希/指纹化，只保留可检索的摘要或模板标识。
脱敏与最小化：敏感字段上报前脱敏/截断；仅在需要时捕获原文，并控制留存周期。

对比与演进

从“日志拼接”到“APM 级 LLM 可观测性”

仅日志：低门槛但难以还原全链路，跨组件关联弱，难做 SLO。
APM 集成：以 Trace 为主线，统一指标/日志/事件；能面向业务做聚合与告警。
专用 LLMOps 平台：更强评测/对齐/数据管理能力，但与现有 APM 体系割裂。对已深度使用 Datadog 的团队，优先用 APM 集成形成“可运行的最小闭环”，再按需补齐评测与数据资产能力。