Winfred 在 在模型实验中,利用智能调度充分利用 GPU 资源 中发帖
此前一直尝试使用 codex 或 claude code 帮忙写代码,写完直接同一个 session 中跑实验,这样自己的代码自己知道怎么修;但仍然存在两个问题:
“忙等待”,agent 基本上是在前台轮询 gpu 运行情况和和实验 log 来监督实验或等实验运行结束。这虽然能及时发现告警和运行时 bug,但实验没运行几个 step,大量重复的 toolcall 会带来上下文污染
“早退出”,除非有 /goal 或 /schedule 等 loop 强行让其循环,否则 agent 无法在实验结束时醒来分析结果,而是看个几分钟觉得实验正常运行,停止监督,回复一个“程序健康报告”。
无协作:多session 运行不同实验,共享 gpu 资源,默认情况下就是互相 kill (真的),加了 AGENTS.md 约束后不会杀别的实验,但发现当前无 gpu 资源后,要么“忙等待” gpu 资源,要...