son0ma 在 <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论中发帖前情提要：最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”

son0ma 在 <实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论中发帖

前情提要： 
最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G，算是一次“鸟枪换炮”。 
再加上这段时间中转用 Opus 4.6，用的时候没啥感觉，回头一看账单——脑壳都大了。 
 [1] 
一天消耗普遍在 300～500 RMB。既然刚好换了 M5 Max，那不如把一些轻量开发/分析任务交给本地模型：重度规划再用 Opus，日常就尽量“本地解决”。 
说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火，于是就记录一下我从部署到实战验证的过程。 
1. 环境部署
这里我选择 MLX-LM，而不是 Ollama 的 MLX 版本。 
原因主要有三点： 

原生 MLX 性能更“干净”，大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便，但毕竟多了一层封装

# 创建并进入虚拟环境
python3 -...