宫园薰 (@jiaheqi) 在 自动化算法模型评测 中发帖
需求:针对于看护范围内的算法需求,制定基于模型算法评测体系(工作流)
目标:使用模型评测替代低效的人工评测方案,提升算法评测的准确性和效率
基于prd/技术文档生成测试用例/方案
搭建知识库,知识库中含有prompt/skills等信息
基于测试集和算法输出, 匹配对应算法的评测prompt/skills,选择合适的模型(gpt/doubao/qwen)等
指定模型评测输出规范,输出模型评测后的结果
基于结果的case分析和结论输出
…
实现:初步考虑基于工作流实现,或者其他亦可
rt,有没有佬了解一些类似已经实现的开源工具或工作流,或者一些系统行的思路呀?