钟意 (@thatcoder) 在 海光K100显卡对量化模型兼容性 中发帖
系统环境
系统: Kylin OS
芯片: 128H, Hygon C86 7390 2S * 64
显存: 128G, Hygon K100 DCU 64G * 2
内存: 500G
尝试情况
在以上服务器,尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本:
❌GPTQ-Int4 量化版(不可用)
模型:Qwen-2.5-Int4
结果:vLLM 的 GPTQ 实现依赖 bitsandbytes,该库仅支持 CUDA,不支持 ROCm。不可用。
❌AWQ 量化版(不可用)
模型:qwen3-32B-AWQ
结果:模型可以正常加载,日志显示量化方案为 AWQ。但无法正常运行,正如社区反馈 vllm + rocm 几乎没法跑。
⚠全量精度模型(BF16 / FP16)
模型:DeepSeek-R1-Distill-Qwen-14B BF16
结果:可正常加...