yhp666🐴的Grok-2开源啦 中发帖

巨大的模型规模:总参数量高达9050亿(905B)可以复习下Deepseek-r1是671B,因为采用MOE架构,每次推理会激活其中的1360亿(136B)参数。另外Grok-2还有超长的上下文窗口:支持高达131,072 (128k) token的上下文长度。L站哪个佬可以试试看啊😄