欣郁 (@user1164) 在（我又来了）真实场景下的1M上下文的国产模型的注意力评测III 中发帖原贴被佬友指出仍然粗糙（https://linux.do/t/topic/1624849），所以我认真地写了一个新方案

欣郁 (@user1164) 在（我又来了）真实场景下的1M上下文的国产模型的注意力评测III 中发帖

原贴被佬友指出仍然粗糙（https://linux.do/t/topic/1624849），所以我认真地写了一个新方案。 

省流版： 
研究背景：春节前Deepseek开源并应用了自己发表的技术以扩展上下文，预期上半年就会扩散到各个国产模型，1M上下文时代即将到来——1M上下文固然不意味着窗口都能使用，但却能一定程度提升“有效注意力范围内的上下文” 
研究目的：评测1M上下文给最新的国产模型（Deepseek网页版，qwen-plus网页版）和老同志（gemini2.5 pro中转api版/3pro网页版）带来的对中量文本的注意力和理解力提升程度 
测试方法：pubmed获取50篇文献的摘要合集，让各LLM写综述；让gemini2.5pro评估综述质量 
测评结果：综述准确度都有问题，但相对而言： 

Deepseek-1M-lite最佳：新DS生成的结果字数最多，且都是较为完整的段落（...