@HCPTangHY 在 Flash>Pro?SWE-rebench发布12月榜单:Claude Opus 4.5位居榜首 中发帖
SWE-rebench于近日公布了2026年1月最新榜单,该榜单基于去年12月GitHub上真实的开发任务(包含代码问题修复与拉取请求)进行动态评测。结果显示,Anthropic旗下的Claude Opus 4.5以63.3%的任务解决率位列第一,OpenAI的gpt-5.2-2025-12-11-xhigh以61.5%紧随其后,谷歌的Gemini 3 Flash Preview则以60.0%的成绩位居第三。
本次评测重点观察了模型在处理真实世界软件工程问题时的逻辑能力与成本效益。其中,排名第三的Gemini 3 Flash Preview凭借每题约0.29美元的低廉调用成本展现出极高的实用价值。在开源模型领域,智谱AI推出的GLM-4.7表现亮眼,其解决率从上一版本的40%大幅提升至51.3%,成为目前性能最强的开源模型。此外,DeepSeek-V3.2以48.5%的解决率紧随其后,且...