peterlyz (@peterlyz520) 在 [学习学习]AI可观测性：Prompt、Tool Call、Trace、Token全链路追踪中发帖你的 AI 系统上线了，用户反馈「有时候好用，有时候不好用」

peterlyz (@peterlyz520) 在 [学习学习]AI可观测性：Prompt、Tool Call、Trace、Token全链路追踪中发帖

你的 AI 系统上线了，用户反馈「有时候好用，有时候不好用」。 
你想排查问题，却发现： 

Prompt 是什么？不知道，没记录
调了哪些工具？不知道，没日志
完整调用链路？不知道，黑盒
Token 花了多少钱？月底账单才知道

这不是个例。这是 2026 年大多数 AI 系统的现状。
传统软件有成熟的监控体系（APM、日志、指标、链路追踪），但 AI 系统——特别是基于 LLM 的系统——有其独特的复杂性： 


不确定性 
：同样的输入，可能产生不同的输出 


多步骤 
：一个用户请求可能触发 10+ 次 LLM 调用 


工具链 
：Agent 会调用外部 API、数据库、搜索引擎 


成本不透明 
：Token 消耗、API 调用费用难以预估 


这就是为什么我们需要 AI 可观测性（AI Observability）。

什么是 AI 可观测性？
AI 可观测性不是简单...