欣 郁 (@user1164)(我又来了)真实场景下的1M上下文的国产模型的注意力评测III 中发帖

原贴被佬友指出仍然粗糙(https://linux.do/t/topic/1624849),所以我认真地写了一个新方案。 

省流版:
研究背景:春节前Deepseek开源并应用了自己发表的技术以扩展上下文,预期上半年就会扩散到各个国产模型,1M上下文时代即将到来——1M上下文固然不意味着窗口都能使用,但却能一定程度提升“有效注意力范围内的上下文”
研究目的:评测1M上下文给最新的国产模型(Deepseek网页版,qwen-plus网页版)和老同志(gemini2.5 pro中转api版/3pro网页版)带来的对中量文本的注意力和理解力提升程度
测试方法:pubmed获取50篇文献的摘要合集,让各LLM写综述;让gemini2.5pro评估综述质量
测评结果:综述准确度都有问题,但相对而言:

Deepseek-1M-lite最佳:新DS生成的结果字数最多,且都是较为完整的段落(...