@JayNing 在 有点想谈谈 o1 的一些原理猜测 中发帖
如题,不知道小伙伴们有没有兴趣,大概就是说明为什么猜它是
RL 强化模型原生 CoT 能力
推理时候利用 CoT 以及 MCTS 等技术结合起来 20 倍采样
具体应该会通过一些论文和 api 效果说明
如题,不知道小伙伴们有没有兴趣,大概就是说明为什么猜它是
RL 强化模型原生 CoT 能力
推理时候利用 CoT 以及 MCTS 等技术结合起来 20 倍采样
具体应该会通过一些论文和 api 效果说明