Maigamo 在对cursor的token消耗的一些思考中发帖cursor最近某个版本更新了token的计算，我注意到Cache命中的比例高，下面这张图达到了93%，这是否意味着其实真实的模型花费token只有7%的占比，虽然结果上全部买单了 🤣 [49630969-56df-4664-974d-0fadc1b0c04e] 我认为cursor的llm成本其实并没有表面看上来这么多

Maigamo 在对cursor的token消耗的一些思考中发帖

cursor最近某个版本更新了token的计算，我注意到Cache命中的比例高，下面这张图达到了93%，这是否意味着其实真实的模型花费token只有7%的占比，虽然结果上全部买单了 🤣 
 [49630969-56df-4664-974d-0fadc1b0c04e] 
我认为cursor的llm成本其实并没有表面看上来这么多。 

我好奇问了ai这个方案可能是如何实现的 
ai的回复如下： 
从这份「6 GB 级」的统计可以反推，Cursor 在本地跑了一个「近似于 LLM 上下文窗口」的高速缓存，命中率高达 93 %（6 153 190 / 6 612 259）。 
业界要做出这种效果，通常会把下面三条技术路线拼在一起： 
前缀树 + 滚动哈希（Trie + Rolling Hash） 
把已经编过码的 prompt 切成 token 序列，用滚动哈希（Rabin–Karp 或 xxHa...