宫园薰 (@jiaheqi) 在自动化算法模型评测中发帖需求：针对于看护范围内的算法需求，制定基于模型算法评测体系（工作流）目标：使用模型评测替代低效的人工评测方案，提升算法评测的准确性和效率基于prd/技术文档生成测试用例/方案搭建知识库，知识库中含有prompt/skills等信息基于测试集和算法输出，匹配对应算法的评测prompt/skills，选择合适的模型（gpt/doubao/qwen）等指定模型评测输出规范，输出模型评测后的结果基于结果的case分析和结论输出 … 实现：初步考虑基于工作流实现，或者其他亦可 rt，有没有佬了解一些类似已经实现的开源工具或工作流，或者一些系统行的思路呀？

宫园薰 (@jiaheqi) 在自动化算法模型评测中发帖

需求：针对于看护范围内的算法需求，制定基于模型算法评测体系（工作流） 
目标：使用模型评测替代低效的人工评测方案，提升算法评测的准确性和效率 

基于prd/技术文档生成测试用例/方案
搭建知识库，知识库中含有prompt/skills等信息
基于测试集和算法输出， 匹配对应算法的评测prompt/skills，选择合适的模型（gpt/doubao/qwen）等
指定模型评测输出规范，输出模型评测后的结果
基于结果的case分析和结论输出 
… 
实现：初步考虑基于工作流实现，或者其他亦可 
rt，有没有佬了解一些类似已经实现的开源工具或工作流，或者一些系统行的思路呀？