neteroster关于新 Claude 3.5 Sonnet 的优势领域 中发帖

目前各 Benchmark 的主要结论是,编码能力有很大提升,其他方面提升一般或轻微倒退。 
Aider Benchmark 新 SOTA,超过原 o1-preview
LiveBench 编码子版块新 SOTA,且提升很大,但是由于数据分析板块下降导致总分几乎没涨。
还有 SWE bench,这是官方自己宣传的,49%,确实很强,以往要模型配合代理软件才能有接近的水平。
所以新 sonnet 正确食用方法就是编码助理了,cursor 也上了新 sonnet。haiku 虽然其他方面不太行但是目前看也有潜力竞争低价代码模型,具体表现要等发布之后再看各个独立评测。