𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen) 在 月之暗面发布Attention Residuals技术:48B模型训练效率飙升1.25倍,算力消耗直降20% 中发帖
[Screenshot_2026-03-16-18-28-34-711_com.larus.nova-edit]
[Screenshot_2026-03-16-18-28-34-711_com.larus.nova-edit]