猫先生 (@mrcat) 在 DeepSeek-V3-Base 开源，685B Moe 中发帖[screenshot-20241226-003625] [screenshot-20241226-003610] [screenshot-20241226-010441] 🔥 参数量：685B！ 🔹 混合专家 (MoE)：256 个专家动态路由，智能分配计算任务，效率与性能兼备

猫先生 (@mrcat) 在 DeepSeek-V3-Base 开源，685B Moe 中发帖

[screenshot-20241226-003625] 
 [screenshot-20241226-003610] 
 [screenshot-20241226-010441] 
🔥 参数量：685B！ 
🔹 混合专家 (MoE)：256 个专家动态路由，智能分配计算任务，效率与性能兼备。 
🔹 动态位置嵌入：结合 RoPE 动态扩展机制。 
🔹 高效量化：支持 FP8 格式量化，部署友好（这正常凡人跑不起来应该）。 
🔹注意力机制改进：疑似使用 lora 思想进一步改进 multi latent attention（猜测，不懂装懂） 
唯一的缺点是：没有 README 😂，一副「我们就是这么豪横」的气质。 
官方：“README？我们还没来得及写，因为在忙着上传权重。” 😎 
权重链接：