@leonardo_shen 在 deepseek能重演一次“deepseek时刻”吗? 中发帖
一年前,差不多还是这个时候吧,开源大模型的发展似乎仍卡在“推理”这一关。
如果不是DeepSeek率先摸到了御三家的“门道”,如今的开源生态恐怕仍会是Meta一家独大的局面。
但最近在体验了 Qwen、DeepSeek、GLM 等国产模型之后,我发现开源界与头部闭源模型之间,还存在着一个相对隐蔽、却丝毫不亚于“思考-非思考”这一能力鸿沟的差距——那就是对长上下文的注意力机制处理能力。
那么,这个“长上下文难题”的根源究竟在哪里?
工程实现、硬件限制,还是闭源团队手握的某种“黑科技”级算法?