Bunn (@BunnHack)68.5B 参数 MoE 模型 LongCat-Flash-Lite 登场,SWE-Bench 准确率达 54.4% 领跑比自身更大的模型 中发帖

美团今日正式推出 LongCat-Flash-Lite,这是一款非思考型(non-thinking)的 68.5B 参数混合专家(MoE)模型。该模型激活参数约为 3B,通过 YaRN 方法支持 256k 的上下文长度。LongCat-Flash-Lite 在智能体工具调用(agentic tool use)和编程能力方面树立了新的基准,同时保持了卓越的运行效率。 
核心规格

总参数量:68.5B
激活参数量:2.9B - 4.5B
上下文长度:256K tokens
嵌入层参数:30B+
架构:MoE + N-gram 嵌入 (NE)

创新架构
基于 LongCat-Flash 架构,LongCat-Flash-Lite 的独特之处在于集成了 N-gram 嵌入表,旨在同时提升模型性能与推理速度。
尽管在嵌入层分配了超过 30B 的参数,LongCat-Flash-Lite 不仅超...