@QingChang 在 宣传我们的论文🔥EnvScaler:程序化合成agent训练环境 中发帖
LLM Agent 的训练高度依赖多样的工具交互环境。然而,真实环境访问受限 🚫,LLM 模拟环境容易产生幻觉和不一致 😵,而人工编写沙盒又面临成本高昂、难以扩展的难题 😓。
🚀 针对这一难题,我们提出了 EnvScaler —— 一个通过程序合成环境的自动化框架!利用 LLM 自动编写可执行的 Python 程序,构建成百上千个不同主题的交互式环境,并自动生成配套的任务和验证逻辑。
📒 EnvScaler 由 SkelBuilder 和 ScenGenerator 两大核心组件组成,旨在实现环境与任务的全自动构建。
🏗 环境构建 (SkelBuilder):从文本挖掘到代码实现
主题挖掘与规划:从现有文本数据中挖掘环境主题,自动规划状态空间与工具集。
程序化实现:将规划转化为完整的 Python 程序代码。
质量保证:引入双 Agent 循环质检(Dual-Agent Ins...