@Juya 在 给佬友梳理一下 Qwen 模型那些错综复杂名称的关系 中发帖
注:我不是官方人员,只是对开源模型比较了解一些。
开源&闭源并行
Qwen 之前的文本模型有两条线,一条是开源(开放权重)的,一条是闭源的。
以 Qwen2 系列为例。开源的就是 Qwen2-7B-Instruct、Qwen2-72B-Instruct 这些后面带模型参数量的名称,包括带 Instruct 或者 Base 这些都是符合开源模型惯例的名称。
闭源的就是 Qwen2-Max、Qwen2-Plus 和 Qwen2-Turbo 这些,可能是为了商业上便于客户理解(实际上更难懂)。
两条线并非一一对应的,目前开源的都是 Dense 的模型(有多少参数激活多少参数),而 Qwen2-Max 我记得是一个 MoE 架构的模型(和DeepSeek 一样,只激活一部分参数,但需要加载所有参数)
当然,随着 DeepSeek-V3 和 R1 开源取得的巨大成功,Qwen2.5 这一代...