Maigamo 在 对cursor的token消耗的一些思考 中发帖
cursor最近某个版本更新了token的计算,我注意到Cache命中的比例高,下面这张图达到了93%,这是否意味着其实真实的模型花费token只有7%的占比,虽然结果上全部买单了 🤣
[49630969-56df-4664-974d-0fadc1b0c04e]
我认为cursor的llm成本其实并没有表面看上来这么多。
我好奇问了ai这个方案可能是如何实现的
ai的回复如下:
从这份「6 GB 级」的统计可以反推,Cursor 在本地跑了一个「近似于 LLM 上下文窗口」的高速缓存,命中率高达 93 %(6 153 190 / 6 612 259)。
业界要做出这种效果,通常会把下面三条技术路线拼在一起:
前缀树 + 滚动哈希(Trie + Rolling Hash)
把已经编过码的 prompt 切成 token 序列,用滚动哈希(Rabin–Karp 或 xxHa...