@CNJK49 在 Qwen3参数量是不是太小了? 中发帖
Qwen 3开源版本只有200B参数,激活20B;
这个参数量规模,无论是对比deepseek,还是chatgpt、gemini、claude、grok,都是不值得看的;
这么小的参数量,会不会严重影响模型能力,毕竟即使你的训练策略再改进,根本上你的模型规模不够,模型拟合的能力肯定是达不到的,训练策略只是锦上添花。
小模型在处理复杂任务、复杂理解、更多的上下文关联方面,感觉都是不行的。