自旋烧麦 (@corehys) 在 Artificial Analysis有GLM5.1和Qwen3.6 plus的数据了 中发帖
AI Model & API Providers Analysis | Artificial Analysis
非常不错,分别排名第5第6。
以前国模刷分都刷不到点子上,这次几个关键的指标都还不错。
一个是 Long Context Reasoning Benchmark
评估的是长上下文的召回率,非常实用,Qwen3.6 plus有69.7%,接近Claude三个模型的水平。
第二个是 AA-Omniscience: Knowledge and Hallucination Benchmark | Artificial Analysis
评估的是全模态科学问题能力,我比较关注的是AI幻觉率。
以往的国模很容易在这个问题上翻车。这次GLM5.1和Qwen3.6 plus在这个指标上都很亮眼。
最后一个是 GDPval-AA Leaderboard | Artificial A...