@touchinstant 在读《图解DeepSeek技术》中发帖书中主要内容包括 3 大部分：推理大模型概述、DS 架构、DS-R1 的训练方法推理大模型更关注如何得到答案，而不是直接给出答案

@touchinstant 在读《图解DeepSeek技术》中发帖

书中主要内容包括 3 大部分：推理大模型概述、DS 架构、DS-R1 的训练方法 
推理大模型更关注如何得到答案，而不是直接给出答案。它会把问题逐步拆分、细化。 
DS-v3的基底大模型训练时就使用了很多省成本、提效率的方法 
DS-R1-zero在不使用监督数据，只靠强化学习就创造了强推理的模型 
DS-R1借鉴了 zero 的想法，使用中间模型构建出来的推理样本和非推理样本（一共 80 万条）进行 SFT，最终训练出 DS-R1。其中的 80 万条样本数据还可以用于小模型的数据蒸馏 
 [image] 
最后，附一段大神 kapathy 对 2025 年 ai 发展的一个回顾片段，感觉是对这本书的内容的一个更好的概括： 

RLVR 強化學習成為新標準

2025 年前的 LLM 訓練流程是: 預訓練 → SFT 監督微調 → RLHF 人類回饋強化學習。今年 RLVR (Reinfo...