Sol (@Frank_Frank_Lewuder) 在 AI Deep Research Agent评估:应该是首次多子代理集群评价方法与性能基准中发帖1.1 摘要本年是AI Agent元年,而我也看到了”Deep Research”这些AI Agent的爆发,所以我提出一套评判方法,并且测试了一遍,所以我们也建立了一个评价体系,围绕”准确性”、”全面性”、”资料可信度”、”可用性” 之后测试方法是用一个Prompt向一个AI Agent要求评价,并多次取平均值,我原本有考虑做题库,但是我认为研究方面的AI Agent不适合做比如Human Last Exam题库,因为研究没有标准答案,优秀的研究应该是去创新,问题本身就是研究的一部分,然后网络信息每秒都在变化,静态的题库无法反映真实环境的信息,评判标准也因人而异,所以最终我决定不弄一个题库

Sol (@Frank_Frank_Lewuder) 在 AI Deep Research Agent评估:应该是首次多子代理集群评价方法与性能基准中发帖

1.1 摘要
本年是AI Agent元年,而我也看到了”Deep Research”这些AI Agent的爆发,所以我提出一套评判方法,并且测试了一遍,所以我们也建立了一个评价体系,围绕”准确性”、”全面性”、”资料可信度”、”可用性” 
之后测试方法是用一个Prompt向一个AI Agent要求评价,并多次取平均值,我原本有考虑做题库,但是我认为研究方面的AI Agent不适合做比如Human Last Exam题库,因为研究没有标准答案,优秀的研究应该是去创新,问题本身就是研究的一部分,然后网络信息每秒都在变化,静态的题库无法反映真实环境的信息,评判标准也因人而异,所以最终我决定不弄一个题库。 
1.2 机构预测
 [image] 

德勤(Deloitte)预测数据："到2025年，25%使用生成式AI的企业将部署AI Agent，到2027年将增长到50% 

 [image] 

...