@leonardo_shen 在 deepseek能重演一次“deepseek时刻”吗？中发帖一年前，差不多还是这个时候吧，开源大模型的发展似乎仍卡在“推理”这一关

@leonardo_shen 在 deepseek能重演一次“deepseek时刻”吗？中发帖

一年前，差不多还是这个时候吧，开源大模型的发展似乎仍卡在“推理”这一关。 
如果不是DeepSeek率先摸到了御三家的“门道”，如今的开源生态恐怕仍会是Meta一家独大的局面。 
但最近在体验了 Qwen、DeepSeek、GLM 等国产模型之后，我发现开源界与头部闭源模型之间，还存在着一个相对隐蔽、却丝毫不亚于“思考-非思考”这一能力鸿沟的差距——那就是对长上下文的注意力机制处理能力。 
那么，这个“长上下文难题”的根源究竟在哪里？ 
工程实现、硬件限制，还是闭源团队手握的某种“黑科技”级算法？