@mhycy探讨:“大海捞针”或者说“针尖在稻草堆中”测试在大模型中的意义。 中发帖

经过数天折腾大模型写代码,感觉这个测试本身意义不大。 
虽然说能判断大模型的总结能力,但并不能反映大模型在上下文长度过长的时候因注意力缺陷(不能分辨当前任务需要上下文注意力集中在哪)导致的编码能力下降的问题。
所以这个问题该怎么测试才科学是个可以探讨的问题。