ee (@qwe_ewqqq)部署LLM怎么计算所需资源(显存) 中发帖

各位佬,各位老师: 
我又来打扰大家啦,这次想请教一下部署大模型所需显存资源计算的问题。
我和DS互动后,DS反馈给我答案为:
所需总资源 = 模型占用 + KV cache + 激活值占用
其中KV cache :
[bb7df751d76007593dd41ef78768592]
那么在10并发的场景下:
1)模型 = 680G
2)激活值占用 = 模型 * 0.2 = 136G
3)KV cache = 2 * 1 * 61 * 7168 * 131072 * 10 / 10^9 = 1146G
总需资源 = 680G + 136G + 1146G = 1962G
但是实际好像不需要这么多资源(?)还是想请教一下各位佬,这个所需资源到底是怎么计算呢?