Saigut 在发现大模型编程体验上两个很实用的指标中发帖大模型有各种测试、评分，看的眼花缭乱

Saigut 在发现大模型编程体验上两个很实用的指标中发帖

大模型有各种测试、评分，看的眼花缭乱。 
对于 Vibing Coding 来说，这两个指标感觉很重要： 

召回率：大模型对前面的信息还能记住多少
指令遵循：大模型能不能按要求办事

我找到了这两个网站： 
召回率：https://contextarena.ai/ 
指令遵循：https://livebench.ai/ 表格中“IF Average”那一列 
各位佬可以看看这两个指标与自己的体验相不相符。