𝓵𝓮𝔃𝓲𝓼𝓱𝓮𝓷 (@lezishen)月之暗面发布Attention Residuals技术:48B模型训练效率飙升1.25倍,算力消耗直降20% 中发帖

[Screenshot_2026-03-16-18-28-34-711_com.larus.nova-edit]