章北海 (@alertsc)打算Mac上通过ollama持续跑一个小模型作为本地调用的快捷模型 中发帖

以前都用gemini-flash-lite作为快捷模型进行标题生成,内容压缩等工作。Google收紧用量后就缺乏持久好用的快捷模型了。 
准备本地运行一个小模型,这样可以长期稳定免费使用。
考虑qwen3-4b,或qwen3-8b,倾向4b,尽可能降低资源消耗。
有没有更好的小模型推荐?不知道长期运行负荷会有多大。