Saigut 在 发现大模型编程体验上两个很实用的指标 中发帖
大模型有各种测试、评分,看的眼花缭乱。
对于 Vibing Coding 来说,这两个指标感觉很重要:
召回率:大模型对前面的信息还能记住多少
指令遵循:大模型能不能按要求办事
我找到了这两个网站:
召回率:https://contextarena.ai/
指令遵循:https://livebench.ai/ 表格中“IF Average”那一列
各位佬可以看看这两个指标与自己的体验相不相符。