星纬智联技术 (@benchen) 在【开源】 AI-Eval：Prompt 评估系统，用单元测试跑 prompt 评估中发帖TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统

星纬智联技术 (@benchen) 在【开源】 AI-Eval：Prompt 评估系统，用单元测试跑 prompt 评估中发帖

TLDR: ai-eval 是一套 Go 写的 Prompt 评估系统。把 Prompt 测试当单元测试跑——写 YAML 定义用例，配评估器（模式匹配、LLM Judge、RAG、Agent、安全检测），跑 pass@k 处理 LLM 的不确定性。带 Web API、Leaderboard、CI 集成，支持 MMLU/GSM8K/HumanEval 标准 Benchmark。 





维度
能力




评估器
模式匹配、LLM Judge、语义相似度、RAG、Agent、安全性


Benchmark
MMLU、GSM8K、HumanEval（Docker 沙箱）


Provider
Claude (Anthropic)、OpenAI


接入方式
CLI、Web API、CI/CD


存储
SQLite + Leaderboard



问题
改 Prompt 是个玄学活。 ...