@wusimpl【经典洗车问题】Qwen3.5 35B 测试成功 中发帖

[image] 
[image]
运行环境:
llama-server.exe `
-m Qwen3.5-35B-A3B-UD-Q3_K_XL.gguf `
-c 8192 `
-np 1 `
--n-gpu-layers 18 `
--flash-attn on `
--cache-type-k q4_0 `
--cache-type-v q4_0 `
-t 6 -tb 6 `
--jinja `


4060ti-8g能跑,不过速度只能达到 10 tokens/s。相比质量而言,比一年前进步太多了。
希望国产模型越来越强。
另外跑了9B模型,可以达到45 tokens/s,context 设置为128k都没问题,不过放在claude code里面基本没法用,工具调用都不会。

Don’t take it...