peterlyz (@peterlyz520) 在 [学习学习]AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪 中发帖
你的 AI 系统上线了,用户反馈「有时候好用,有时候不好用」。
你想排查问题,却发现:
Prompt 是什么?不知道,没记录
调了哪些工具?不知道,没日志
完整调用链路?不知道,黑盒
Token 花了多少钱?月底账单才知道
这不是个例。这是 2026 年大多数 AI 系统的现状。
传统软件有成熟的监控体系(APM、日志、指标、链路追踪),但 AI 系统——特别是基于 LLM 的系统——有其独特的复杂性:
不确定性
:同样的输入,可能产生不同的输出
多步骤
:一个用户请求可能触发 10+ 次 LLM 调用
工具链
:Agent 会调用外部 API、数据库、搜索引擎
成本不透明
:Token 消耗、API 调用费用难以预估
这就是为什么我们需要 AI 可观测性(AI Observability)。
什么是 AI 可观测性?
AI 可观测性不是简单...