shanyuhai第一次尝试部署AI小模型qwen3-0.6b,ollama 确实方便 中发帖

为什么不上更大的模型,还不是因为贫穷,只有 CPU和内存 :bili_001: 

首先是瓜皮的 AMD 5625U + 64G 内存,不知道是不是问题很简单,吞吐有 100+tokens/s:
[image]
再接下来是 AMD 8745HS + 32G 内存,一道中等难度的 leetcode(测试用例跑通101,一些边界没有考虑到),吞吐在 70tokens/s:
[image]
[image]
听说 vllm 部署推理速度更快,但是折腾了好久 vllm 的 docker 镜像也没有成功,不像 ollama 那么简单。