钟意 (@thatcoder) 在海光K100显卡对量化模型兼容性中发帖系统环境系统: Kylin OS芯片: 128H, Hygon C86 7390 2S * 64显存: 128G, Hygon K100 DCU 64G * 2内存: 500G尝试情况在以上服务器，尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本： ❌GPTQ-Int4 量化版（不可用）模型：Qwen-2.5-Int4结果：vLLM 的 GPTQ 实现依赖 bitsandbytes，该库仅支持 CUDA，不支持 ROCm

钟意 (@thatcoder) 在海光K100显卡对量化模型兼容性中发帖

系统环境

系统: Kylin OS
芯片: 128H, Hygon C86 7390 2S * 64
显存: 128G, Hygon K100 DCU 64G * 2
内存: 500G

尝试情况
在以上服务器，尝试运行了 MiniCPM、QWEN、DS 系列的多种量化版本： 

❌GPTQ-Int4 量化版（不可用）

模型：Qwen-2.5-Int4
结果：vLLM 的 GPTQ 实现依赖 bitsandbytes，该库仅支持 CUDA，不支持 ROCm。不可用。


❌AWQ 量化版（不可用）

模型：qwen3-32B-AWQ
结果：模型可以正常加载，日志显示量化方案为 AWQ。但无法正常运行，正如社区反馈 vllm + rocm 几乎没法跑。


⚠全量精度模型（BF16 / FP16）

模型：DeepSeek-R1-Distill-Qwen-14B BF16
结果：可正常加...