doublechen 在 有佬公司自己部署模型的吗?问问细节 中发帖
很奇怪我h20x8(96Gx8)上deepseek v4 flash utilization 0.9 192k有时候会OOM,输出倒是挺快的,最高看到的是4000多/s,没具体测过,这最大上下文还能上吗?
还有一台机器是minimax2.7上的也是192k,我想要不要搞个q4量化的GLM5.2,但是模型单独就要占4-500G显存,感觉上不了多大上下文,能换吗?
万能佬友救救