@litchii 在 佬友们有什么比较适合评估大模型多轮回答问题的新颖性、易懂性之类指标的项目吗 中发帖
最近在跑baseline,找不到合适的评估模型,复现的论文跑评估需要reference answer他没给。所以想找一个其他的评估模型。复现论文用的模型是 Prometheus 2.佬友们有什么建议吗? 🧐