@HCPTangHYDeepSeek团队发布新论文 mHC: Manifold-Constrained Hyper-Connections 中发帖

原文链接 

以下为Gemini 3 Flash的论文导读,详细内容还请相关专业人士斧正
DeepSeek发布了一项底层架构创新——mHC(流形约束超连接)。这项技术解决了大模型在向更大规模进化过程中的一个核心难题:如何在把“路”拓宽的同时,不让车流乱套?
从“单行道”到“多车道”的烦恼
如果把大模型内部的信息流动比作交通,传统的 AI 架构(残差连接)像是一条笔直的单行道。为了让 AI 更聪明,科学家曾尝试开发“超连接(HC)”技术,把单行道扩建成“多车道高速公路”。
然而,这条“高速公路”此前有一个致命缺陷:缺乏交通规则。车流(信号)在车道间随意穿插,导致在深层网络中容易发生严重的“交通拥堵”或“追尾”,表现为模型训练不稳定,甚至直接崩溃。
mHC:给信息流装上“自动平衡仪”
DeepSeek 的研究员们巧妙地引入了一套名为“流形约束”的数学框架。这就像是为高速公路安装了一套极...