风都suda (@sakuya)现在比较流行自动化测评方案有哪些? 中发帖

现在在公司做AI应用相关类的内容,目前主要落地是问答场景助手,领导想对真实的用户数据进行自动化答案测评,然后下一步再做自动化优化主要是想解放运维case的人力不然以后扩大业务领域处理不过来。想问问各位佬现在有没有什么流行或者成熟方案不? 
我个人是觉得这个内容有可行性但不高 🥲,因为模型对垂直领域的知识本来就很薄弱,业务问题的正确性只有业务才能真实评估(目前只有财务领域积极配合)。现在是使用rag方式实现的问答,大部分情况依赖于正确切片是否正确召回。