星纬智联技术 (@benchen)【开源】 AI-Eval:Prompt 评估系统,用单元测试跑 prompt 评估 中发帖

TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统。把 Prompt 测试当单元测试跑——写 YAML 定义用例,配评估器(模式匹配、LLM Judge、RAG、Agent、安全检测),跑 pass@k 处理 LLM 的不确定性。带 Web API、Leaderboard、CI 集成,支持 MMLU/GSM8K/HumanEval 标准 Benchmark。 





维度
能力




评估器
模式匹配、LLM Judge、语义相似度、RAG、Agent、安全性


Benchmark
MMLU、GSM8K、HumanEval(Docker 沙箱)


Provider
Claude (Anthropic)、OpenAI


接入方式
CLI、Web API、CI/CD


存储
SQLite + Leaderboard



问题
改 Prompt 是个玄学活。 ...