dharma 在 Grok 3 是否意味着大力出奇迹的大模型法则仍然成立？中发帖Grok 3 是否意味着大力出奇迹的大模型法则仍然成立？来源: OSCHINA 编辑: 局 2025-02-19 11:02:00 0 本文转载自：https://zhuanlan.zhihu.com/p/24609799526 作者：张俊林（中科院软件所博士）媒体风向变化太快，让人目不暇接

dharma 在 Grok 3 是否意味着大力出奇迹的大模型法则仍然成立？中发帖

Grok 3 是否意味着大力出奇迹的大模型法则仍然成立？
来源: OSCHINA 
编辑: 局 
2025-02-19 11:02:00 
 0 

本文转载自：https://zhuanlan.zhihu.com/p/24609799526 
作者：张俊林（中科院软件所 博士） 

媒体风向变化太快，让人目不暇接。早上还在夸 Deepseek 成本低，性价比高，预训练 Scaling Law 死了，不需要太多机器和 GPU 卡，性价比优先，英伟达休矣；中午 Grok 3 一出来，说是用了 10 万张英伟达 H100 卡，效果力压 OpenAIo3 mini 和 Deepseek R1，就转向说 Scaling law 还成立，还需要大量的卡，英伟达股价有救了，还是要大力出奇迹…… 
这两个观点明显对立，有一真必有一假，那事实的真相到底是啥呢？我们来推一推。 
一、预训练阶段的 Sca...