Winfred 在在模型实验中，利用智能调度充分利用 GPU 资源中发帖此前一直尝试使用 codex 或 claude code 帮忙写代码，写完直接同一个 session 中跑实验，这样自己的代码自己知道怎么修；但仍然存在两个问题： “忙等待”，agent 基本上是在前台轮询 gpu 运行情况和和实验 log 来监督实验或等实验运行结束

Winfred 在在模型实验中，利用智能调度充分利用 GPU 资源中发帖

此前一直尝试使用 codex 或 claude code 帮忙写代码，写完直接同一个 session 中跑实验，这样自己的代码自己知道怎么修；但仍然存在两个问题： 

“忙等待”，agent 基本上是在前台轮询 gpu 运行情况和和实验 log 来监督实验或等实验运行结束。这虽然能及时发现告警和运行时 bug，但实验没运行几个 step，大量重复的 toolcall 会带来上下文污染
“早退出”，除非有 /goal 或 /schedule 等 loop 强行让其循环，否则 agent 无法在实验结束时醒来分析结果，而是看个几分钟觉得实验正常运行，停止监督，回复一个“程序健康报告”。
无协作：多session 运行不同实验，共享 gpu 资源，默认情况下就是互相 kill （真的），加了 AGENTS.md 约束后不会杀别的实验，但发现当前无 gpu 资源后，要么“忙等待” gpu 资源，要...