shanyuhai 在第一次尝试部署AI小模型qwen3-0.6b，ollama 确实方便中发帖为什么不上更大的模型，还不是因为贫穷，只有 CPU和内存 :bili_001: 首先是瓜皮的 AMD 5625U + 64G 内存，不知道是不是问题很简单，吞吐有 100+tokens/s： [image] 再接下来是 AMD 8745HS + 32G 内存，一道中等难度的 leetcode（测试用例跑通101，一些边界没有考虑到），吞吐在 70tokens/s： [image] [image] 听说 vllm 部署推理速度更快，但是折腾了好久 vllm 的 docker 镜像也没有成功，不像 ollama 那么简单

shanyuhai 在第一次尝试部署AI小模型qwen3-0.6b，ollama 确实方便中发帖

为什么不上更大的模型，还不是因为贫穷，只有 CPU和内存 :bili_001: 

首先是瓜皮的 AMD 5625U + 64G 内存，不知道是不是问题很简单，吞吐有 100+tokens/s： 
 [image] 
再接下来是 AMD 8745HS + 32G 内存，一道中等难度的 leetcode（测试用例跑通101，一些边界没有考虑到），吞吐在 70tokens/s： 
 [image] 
 [image] 
听说 vllm 部署推理速度更快，但是折腾了好久 vllm 的 docker 镜像也没有成功，不像 ollama 那么简单。