@fengchrisOpenBMB发布MiniCPM-SALA模型:稀疏注意力与线性注意力混合架构 1M端侧推理不是梦! 中发帖

OpenBMB 发布的 MiniCPM-SALA 是全球首个融合稀疏注意力与线性注意力的混合架构模型。该架构在确证性能无损的同时,在 9B 规模下仅凭消费级显卡极客驱动 1M Tokens 端侧推理,为高效长文本处理构建了全新的技术基石。 
[image]
[image]
[image]
[image]
[image]
[image]
仓库地址:GitHub - OpenBMB/MiniCPM: MiniCPM4 & MiniCPM4.1: Ultra-Efficient LLMs on End Devices, achieving 3+ generation speedup on reasoning tasks
模型地址:openbmb/MiniCPM-SALA · Hugging Face