@zqhhhdeepseek v4 碎碎念 中发帖

1、CSA和HCA两种sparse attention 
2、mHC
3、Muon优化器
4、GRPO+OPD
想问一下这次的engram去哪里了,没办法scale up?