@Juya仅次于Sonnet 3.7,DeepSeek-V3-0324的Aider多语言基准测试得分55% 中发帖

DeepSeek’s new V3 scored 55% on aider’s polyglot benchmark, significantly improving over the prior version. It’s the #2 non-thinking/reasoning model, behind only Sonnet 3.7. V3 is competitive with thinking models like R1 & o3-mini. 


DeepSeek的新版 V3 在 aider 的多语言基准测试中获得了 55%的得分,显著提升了与之前版本的表现。它是仅次于 Sonnet 3.7 的第二名非思考/推理模型。V3 与像 R1 和 o3-mini 这样的思考模型具有竞争力。


[Gm1yPsxasAAr2QW]



https://aider.chat...