son0ma<实测>opus4.6蒸馏qwen3.5的qwopus3.5-27B-v3-8b,结尾结论 中发帖

前情提要: 
最近把自己的 M1 Pro 32G 设备换成了 M5 Max 128G,算是一次“鸟枪换炮”。
再加上这段时间中转用 Opus 4.6,用的时候没啥感觉,回头一看账单——脑壳都大了。
[1]
一天消耗普遍在 300~500 RMB。既然刚好换了 M5 Max,那不如把一些轻量开发/分析任务交给本地模型:重度规划再用 Opus,日常就尽量“本地解决”。
说干就干。最近 Hugging Face 上 Opus 4.6 蒸馏的 Qwen3.5 很火,于是就记录一下我从部署到实战验证的过程。
1. 环境部署
这里我选择 MLX-LM,而不是 Ollama 的 MLX 版本。
原因主要有三点:

原生 MLX 性能更“干净”,大上下文时更不容易出现性能抖动
可以更灵活地调整内存上限
Ollama 虽然方便,但毕竟多了一层封装

# 创建并进入虚拟环境
python3 -...