@HCPTangHYDeepSeek mHC成功复现:1.7B规模下常规HC信号激增万倍,mHC展现绝对稳定性 中发帖

人工智能研究员Taylor Kolasinski发布了对DeepSeek提出的“流形约束超连接”(mHC)架构的大规模复现报告。在动用8张H100 GPU、将模型规模扩展至1.7B至2.5B参数后,实验证实:未受约束的传统“超连接”(HC)架构在训练中出现了高达10924倍的信号放大,成为埋在大型语言模型中的“不稳定定时炸弹”;而DeepSeek提出的mHC架构则完美解决了这一隐患,在不损失任何模型性能的前提下,展现出了绝对的系统稳定性。 
在Transformer架构中,残差连接本应保证信号在层层传递时大小保持不变。然而,为了提升模型表达能力而引入的HC架构打破了这一守恒。实验数据显示,在1.7B参数、32层深度的模型中,HC架构的输入层(Layer 0)最先失控,导致信号在传递过程中被极端放大了超一万倍。在针对64层深度的压力测试中,该放大倍数甚至飙升至14765倍。这种剧烈的信号震荡...