二婚读懂人生 (@acrx10Zz) 在 20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐中发帖llama.cpp 支持的APEX量化效果挺好的， https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF 根据该量化库的作者的表述，消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-Q3_K_M 量化

二婚读懂人生 (@acrx10Zz) 在 20G显存可用的 Qwen3.6-35B-A3B-APEX-I-Compact 本地部署简易快餐中发帖

llama.cpp 支持的APEX量化效果挺好的， https://huggingface.co/mudler/Qwen3.6-35B-A3B-APEX-GGUF  根据该量化库的作者的表述 ， 消费级显卡可用的 Qwen3.6-35B-A3B-APEX-I-Compact.gguf 效能要优于UD-Q3_K_M 量化。 
我基于 docker-compose 方式搭了个简易llama.cpp部署， 写了个简易的python测试程序 ，就我比较关心的信息抽取场景做了测试。 
项目地址： GitHub - WackyGem/Burrito: 这个仓库是一个本地 `llama.cpp` 部署与测试示例。 · GitHub 
下面是简易的测试评估结论 
一、显存占用 




组件
大小




CUDA 模型权重
16,209 MiB


KV Cache
640 MiB (f16, 1638...