二婚读懂人生 (@acrx10Zz) 在 20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐 中发帖
llama.cpp 支持的APEX量化效果挺好的, https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述 , 消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-Q3_K_M 量化。
我基于 docker-compose 方式搭了个简易llama.cpp部署, 写了个简易的python测试程序 ,就我比较关心的信息抽取场景做了测试。
项目地址: GitHub - WackyGem/Burrito: 这个仓库是一个本地 `llama.cpp` 部署与测试示例。 · GitHub
下面是简易的测试评估结论
一、显存占用
组件
大小
CUDA 模型权重
16,209 MiB
KV Cache
640 MiB (f16, 1638...