@JayNing有点想谈谈 o1 的一些原理猜测 中发帖

如题,不知道小伙伴们有没有兴趣,大概就是说明为什么猜它是 
RL 强化模型原生 CoT 能力
推理时候利用 CoT 以及 MCTS 等技术结合起来 20 倍采样
具体应该会通过一些论文和 api 效果说明