Yuzx 在 从强化学习角度理解为啥需要cc+codex+gpt 中发帖
用强化学习的眼光,看我这套「Claude + GPT + Codex」写代码流水线
这段时间我基本把日常 coding 全部丢给了 Claude + Codex,一开始只是想偷懒,结果越用越觉得:
只用一类模型,很快就会撞到一个“认知天花板”,不管你再怎么角色扮演、多 agent、搞 debate,本质上还是同一个脑子在自言自语。
后来我干脆换个视角,把整个流程当成强化学习(Reinforcement Learning,下面简称 RL)里的 Actor–Critic 系统去想,很多东西一下子就顺了。下面这篇算是我这段时间折腾下来的一个方法论总结,完全是自己的体会,没有学术味道。
1. 我现在是怎么安排这几个模型的?
先把配置摊开说:
Claude(Opus / Sonnet):
负责做计划、想方案、写代码、修小 bug、做一次内部 code review。
你可以...