星纬智联技术 (@benchen) 在 【开源】 AI-Eval:Prompt 评估系统,用单元测试跑 prompt 评估 中发帖
TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统。把 Prompt 测试当单元测试跑——写 YAML 定义用例,配评估器(模式匹配、LLM Judge、RAG、Agent、安全检测),跑 pass@k 处理 LLM 的不确定性。带 Web API、Leaderboard、CI 集成,支持 MMLU/GSM8K/HumanEval 标准 Benchmark。
维度
能力
评估器
模式匹配、LLM Judge、语义相似度、RAG、Agent、安全性
Benchmark
MMLU、GSM8K、HumanEval(Docker 沙箱)
Provider
Claude (Anthropic)、OpenAI
接入方式
CLI、Web API、CI/CD
存储
SQLite + Leaderboard
问题
改 Prompt 是个玄学活。 ...