@wusimpl 在【经典洗车问题】Qwen3.5 35B 测试成功中发帖[image] [image] 运行环境： llama-server.exe ` -m Qwen3.5-35B-A3B-UD-Q3_K_XL.gguf ` -c 8192 ` -np 1 ` --n-gpu-layers 18 ` --flash-attn on ` --cache-type-k q4_0 ` --cache-type-v q4_0 ` -t 6 -tb 6 ` --jinja `4060ti-8g能跑，不过速度只能达到 10 tokens/s

@wusimpl 在【经典洗车问题】Qwen3.5 35B 测试成功中发帖

[image] 
[image] 
运行环境： 
llama-server.exe `
    -m Qwen3.5-35B-A3B-UD-Q3_K_XL.gguf `
    -c 8192 `
    -np 1 `
    --n-gpu-layers 18 `
    --flash-attn on `
    --cache-type-k q4_0 `
    --cache-type-v q4_0 `
    -t 6 -tb 6 `
    --jinja `


4060ti-8g能跑，不过速度只能达到 10 tokens/s。相比质量而言，比一年前进步太多了。 
希望国产模型越来越强。 
另外跑了9B模型，可以达到45 tokens/s，context 设置为128k都没问题，不过放在claude code里面基本没法用，工具调用都不会。 

Don’t take it...