猫先生 (@mrcat)DeepSeek-V3-Base 开源,685B Moe 中发帖

[screenshot-20241226-003625] 
[screenshot-20241226-003610]
[screenshot-20241226-010441]
🔥 参数量:685B!
🔹 混合专家 (MoE):256 个专家动态路由,智能分配计算任务,效率与性能兼备。
🔹 动态位置嵌入:结合 RoPE 动态扩展机制。
🔹 高效量化:支持 FP8 格式量化,部署友好(这正常凡人跑不起来应该)。
🔹注意力机制改进:疑似使用 lora 思想进一步改进 multi latent attention(猜测,不懂装懂)
唯一的缺点是:没有 README 😂,一副「我们就是这么豪横」的气质。
官方:“README?我们还没来得及写,因为在忙着上传权重。” 😎
权重链接: