OpenAI_Q-Star 在幻想2025 中发帖淮许模型选择下一个token 时引入强化/穷举效果例如模型在高temperature min p选择下一个token 时对每一个可能token 也生成下去穷举所有可能token 也可以基于min p对下一个token 引入强化mcts 之类？像下棋般或像以下公司透视/控制模型神经元的方案

OpenAI_Q-Star 在幻想2025 中发帖

淮许模型选择下一个token 时引入强化/穷举效果 
例如 模型在高temperature min p选择下一个token 时 
对每一个可能token 也生成下去 穷举所有可能token 
也可以基于min p对下一个token 引入强化mcts 之类？像下棋般 
或像以下公司 透视/控制模型神经元的方案 https://transluce.org/ 
引入一些弱智吧/绿茶婊LLM 对现时一本正经的LLM 神经元评论 碰出火花 
期待Deepseek R1 可以像openai 强化微调