羽于羊 (@yuyuyang) 在 关于Mistral Devstral 2值得注意的点 中发帖
虽然Mistral现在的关注度远不如国内的DeepSeek、Qwen和GLM等,但是他家毕竟是最早推出MoE架构大模型(Mixtral 8x7B)的厂商。他们刚发布的这个Mistral Devstral 2居然是一款123B的Dense模型,并且这是最近一年发布的第一款超过100B的稠密模型。佬友们有什么看法?稠密模型在coding领域会比更大规模的MoE模型表现的更好吗?