@PuQing【开源】gflow-单节点GPU作业调度器 中发帖

前言
你是否遇到过这样的场景?

实验室有一台 8 卡 GPU 服务器,几个同学同时跑实验,经常互相"抢"GPU (是的,我们组是穷组)
想跑一个超参数搜索,需要提交 10 个不同的实验,还要记得哪个实验用了哪些参数
训练完模型后需要做评估,但总是要手动盯着训练什么时候结束

Gflow 就是这样一个解决方案。
Gflow 是一个用 Rust 编写的轻量单节点作业调度器,专为管理和调度机器学习/深度学习任务而设计,特别是在具有多 GPU 资源的机器上。
他会帮你:

自动排队:提交任务后自动排队,有空闲 GPU 就运行
时间限制:防止失控任务无限占用资源
任务依赖:自动管理多阶段流水线(数据处理→训练→评估)
实时监控:随时查看任务状态和资源使用情况
日志管理:自动保存每个任务的输出日志

安装
gflow 支持 cargo, conda 安装
conda install -c ...