星赛艇 (@saiting) 在 测试了ollama的最新mlx模型,结果有点不太敢信 中发帖
今天用m4max 40c测试了ollama首个支持mlx的模型qwen3.5 a35b-nvfp4:
这个ttft速度我甚至都不太敢信 [image]
(重点是这个prompt eval速度)但是小说的插针测试是成功的,有效窗口就算是16 k也超过了omlx的速度(图2是omlx社区benchmark),请各位佬友给我的测试捉捉虫,有条件的可以去试下ollama?我自己这样用下来体验很良好,以后可以集成到我的工作流里。
[image]