a.zhai (@JackZhai) 在 Codex 跑深度学习项目时不能持续盯训练?一挂后台它就不管了,佬友们怎么搞 中发帖
佬友们好,我在深度学习项目里尝试用 Codex 辅助跑训练任务。
场景大概是这样的:
训练命令启动之后,我希望 Codex 能继续监控训练过程,包括日志输出、loss/metric 变化、显存占用、异常报错等,直到任务真正结束。
但实际使用下来发现:
只要codex自己把任务挂到后台,Codex 基本就不会继续跟踪了,更像是“启动器”而不是“监工”。
也就是说,它能帮我把命令跑起来,但做不到持续盯住一个长时间运行的训练过程。
我想确认几个点:
这是 Codex 当前能力边界,本来就不支持长时后台监控吗?
如果想实现“训练在后台跑,AI 持续看日志和状态”,通常要怎么搭配?
有没有佬友已经形成比较成熟的深度学习工作流?
求教各位佬友了,感谢。