OpenAI_Q-Star 在 幻想2025 中发帖
淮许模型选择下一个token 时引入强化/穷举效果
例如 模型在高temperature min p选择下一个token 时
对每一个可能token 也生成下去 穷举所有可能token
也可以基于min p对下一个token 引入强化mcts 之类?像下棋般
或像以下公司 透视/控制模型神经元的方案 https://transluce.org/
引入一些弱智吧/绿茶婊LLM 对现时一本正经的LLM 神经元评论 碰出火花
期待Deepseek R1 可以像openai 强化微调