h4ckm310n 在昨晚尝试了部署Qwen3-235B-A22B-2507 Q2量化中发帖我的硬件配置是这样的： CPU: AMD R7 7700内存: DDR5 6400 48G x 2显卡: RTX 4060 Ti 16G + RTX 5060 Ti 16G受限于内存，我只能部署Q2量化，这里我使用的是unsloth的UD-Q2_K_XL量化，模型大小将近90G

h4ckm310n 在昨晚尝试了部署Qwen3-235B-A22B-2507 Q2量化中发帖

我的硬件配置是这样的： 

CPU: AMD R7 7700
内存: DDR5 6400 48G x 2
显卡: RTX 4060 Ti 16G + RTX 5060 Ti 16G

受限于内存，我只能部署Q2量化，这里我使用的是unsloth的UD-Q2_K_XL量化，模型大小将近90G。基本上把内存干满了。我用的部署软件是oobabooga的text generation webui，基于llama.cpp，根据网上抄的配置，开启了flash attention，通过override-tensor=._ffn_.*_exps.=CPU来进行offload，由于激活参数只有22B，Q2量化下显存占用不到7G。 
实际简单使用了一下，生成速度在7t/s左右，不知道长上下文下会不会慢很多。尝试调整了override-tensor，将更多的tensor塞给显卡，提高显存占用，但速度仍然差不多。...