红烧肉 (@peter1) 在 ModelForge - 一个全面的AI测试系统 中发帖
以前测试 AI 时,我把所有提示词都存在 OpenWebUI 里。每次想试模型,就得先翻出来再贴给模型。可时间一长、模型一多,想回顾之前哪个模型表现最好、按强弱排序就越来越头疼;提示词一多,找起来慢,分类也乱。
所以趁 Horizton Beta 还有 GPT-5 免费的时候编了Model Forge。
GitHub 地址 (求star):https://github.com/ShaoRou459/ModelForge
它能帮你解决这些痛点:
✅ 把提示词 + 标准答案 + 题目分组,统一管理成“题库”
✅ 添加多个模型(支持 OpenAI、Anthropic、Gemini 等),一键批量跑测试
✅ 自动用中立模型打分,生成准确率榜单(Leaderboard)
✅ 支持 HTML/CSS/JS 类任务,手动评审渲染效果(带沙箱预览)
✅ 实时查看各模型输出流、响应速度
技...