𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在月之暗面发布Attention Residuals技术：48B模型训练效率飙升1.25倍，算力消耗直降20% 中发帖[Screenshot_2026-03-16-18-28-34-711_com.larus.nova-edit]

𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在月之暗面发布Attention Residuals技术：48B模型训练效率飙升1.25倍，算力消耗直降20% 中发帖

[Screenshot_2026-03-16-18-28-34-711_com.larus.nova-edit]