风林火山 (@graceisgone) 在 跑了一下qwen 3.5小模型 中发帖
想看看能不能VPS把小模型跑起来,然后作为openclaw备用后端,这样再也不用担心tokens不够啦
用ollama拉了3.5 4b uncensored gguf,结果3.5的gguf还不能用。
然后跑了官方的,能跑,吐字比打字机还慢。。。
不死心,换0.8b,还是慢得离谱
查了一下,换ollama.cpp或者其他工具能快一点,但估计还是不可用的状态
结论就是VPS纯CPU跑小模型的方案不可行啊,还是老老实实的用codex