LINUX DO Channel

红烧肉 (@peter1) 在 ModelForge - 一个全面的AI测试系统中发帖

以前测试 AI 时，我把所有提示词都存在 OpenWebUI 里。每次想试模型，就得先翻出来再贴给模型。可时间一长、模型一多，想回顾之前哪个模型表现最好、按强弱排序就越来越头疼；提示词一多，找起来慢，分类也乱。 
所以趁 Horizton Beta 还有 GPT-5 免费的时候编了Model Forge。 
GitHub 地址 (求star)：https://github.com/ShaoRou459/ModelForge  
它能帮你解决这些痛点： 
✅ 把提示词 + 标准答案 + 题目分组，统一管理成“题库” 
✅ 添加多个模型（支持 OpenAI、Anthropic、Gemini 等），一键批量跑测试 
✅ 自动用中立模型打分，生成准确率榜单（Leaderboard） 
✅ 支持 HTML/CSS/JS 类任务，手动评审渲染效果（带沙箱预览） 
✅ 实时查看各模型输出流、响应速度 
技...