LINUX DO Channel

自旋烧麦 (@corehys) 在 Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了中发帖

AI Model & API Providers Analysis | Artificial Analysis 
非常不错，分别排名第5第6。 
以前国模刷分都刷不到点子上，这次几个关键的指标都还不错。 
一个是 Long Context Reasoning Benchmark 
评估的是长上下文的召回率，非常实用，Qwen3.6 plus有69.7%，接近Claude三个模型的水平。 
第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis 
评估的是全模态科学问题能力，我比较关注的是AI幻觉率。 
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。 
最后一个是 GDPval-AA Leaderboard | Artificial A...