h4ckm310n昨晚尝试了部署Qwen3-235B-A22B-2507 Q2量化 中发帖

我的硬件配置是这样的: 

CPU: AMD R7 7700
内存: DDR5 6400 48G x 2
显卡: RTX 4060 Ti 16G + RTX 5060 Ti 16G

受限于内存,我只能部署Q2量化,这里我使用的是unsloth的UD-Q2_K_XL量化,模型大小将近90G。基本上把内存干满了。我用的部署软件是oobabooga的text generation webui,基于llama.cpp,根据网上抄的配置,开启了flash attention,通过override-tensor=._ffn_.*_exps.=CPU来进行offload,由于激活参数只有22B,Q2量化下显存占用不到7G。
实际简单使用了一下,生成速度在7t/s左右,不知道长上下文下会不会慢很多。尝试调整了override-tensor,将更多的tensor塞给显卡,提高显存占用,但速度仍然差不多。...