Luo Xia 在 4-6w 预算 求一个可以部署 106B/12B 的 GLM4.5 Air 的配置! 中发帖
希望单流输出 60t/s+ 8 并发输出 300t/s+
最好可以集成 vllm 和 lmcache 留一些显存/内存用来做上下文缓存
希望单流输出 60t/s+ 8 并发输出 300t/s+
最好可以集成 vllm 和 lmcache 留一些显存/内存用来做上下文缓存