@mhycy 在探讨：“大海捞针”或者说“针尖在稻草堆中”测试在大模型中的意义

@mhycy 在探讨：“大海捞针”或者说“针尖在稻草堆中”测试在大模型中的意义。中发帖

经过数天折腾大模型写代码，感觉这个测试本身意义不大。 
虽然说能判断大模型的总结能力，但并不能反映大模型在上下文长度过长的时候因注意力缺陷（不能分辨当前任务需要上下文注意力集中在哪）导致的编码能力下降的问题。 
所以这个问题该怎么测试才科学是个可以探讨的问题。