doublechen 在有佬公司自己部署模型的吗？问问细节中发帖很奇怪我h20x8(96Gx8)上deepseek v4 flash utilization 0.9 192k有时候会OOM，输出倒是挺快的，最高看到的是4000多/s，没具体测过，这最大上下文还能上吗？还有一台机器是minimax2.7上的也是192k，我想要不要搞个q4量化的GLM5.2，但是模型单独就要占4-500G显存，感觉上不了多大上下文，能换吗？万能佬友救救

doublechen 在有佬公司自己部署模型的吗？问问细节中发帖

很奇怪我h20x8(96Gx8)上deepseek v4 flash utilization 0.9 192k有时候会OOM，输出倒是挺快的，最高看到的是4000多/s，没具体测过，这最大上下文还能上吗？ 
还有一台机器是minimax2.7上的也是192k，我想要不要搞个q4量化的GLM5.2，但是模型单独就要占4-500G显存，感觉上不了多大上下文，能换吗？ 
万能佬友救救