neteroster 在关于新 Claude 3.5 Sonnet 的优势领域中发帖目前各 Benchmark 的主要结论是，编码能力有很大提升，其他方面提升一般或轻微倒退

neteroster 在关于新 Claude 3.5 Sonnet 的优势领域中发帖

目前各 Benchmark 的主要结论是，编码能力有很大提升，其他方面提升一般或轻微倒退。 
Aider Benchmark 新 SOTA，超过原 o1-preview 
LiveBench 编码子版块新 SOTA，且提升很大，但是由于数据分析板块下降导致总分几乎没涨。 
还有 SWE bench，这是官方自己宣传的，49%，确实很强，以往要模型配合代理软件才能有接近的水平。 
所以新 sonnet 正确食用方法就是编码助理了，cursor 也上了新 sonnet。haiku 虽然其他方面不太行但是目前看也有潜力竞争低价代码模型，具体表现要等发布之后再看各个独立评测。