@purr 在赶鸭子上架的 Claude Sonnet 3.7 中发帖其实从命名就能看出来 Claude 并不认为新模型的提升足够大从官方提供的 Benchmark 来看也是如此绝大部分成绩表现均不亮眼实际上基础模型的提升如果在 Deepseek 之前发布还是很可观的但是因为包括 R1, Gork 3, o3-mini 在内的发布导致原本可能作为黑马的思考能力成了可有可无的一个小点心毕竟唯一提升最大的代码能力, 是不需要缓慢的思考过程的总的来说, 新模型发布并没有改变 Claude 只能代码的困境 Aider 混合模式的存在让 Deepseek 这类的低价模型作为指挥者更具效益而日常任务所需要的思考过程, 在能力相当的情况下, 并不能作为人们选择 Claude 的一个强硬理由 [654cf6680d32858dfba9af644f8c4a5b04425af1-2600x2360]

@purr 在赶鸭子上架的 Claude Sonnet 3.7 中发帖

其实从命名就能看出来 Claude 并不认为新模型的提升足够大 
从官方提供的 Benchmark 来看也是如此 绝大部分成绩表现均不亮眼 
实际上基础模型的提升 如果在 Deepseek 之前发布 还是很可观的 
但是因为包括 R1, Gork 3, o3-mini 在内的发布 
导致原本可能作为黑马的思考能力成了可有可无的一个小点心 
毕竟唯一提升最大的代码能力, 是不需要缓慢的思考过程的 
总的来说, 新模型发布并没有改变 Claude 只能代码的困境 
Aider 混合模式的存在让 Deepseek 这类的低价模型作为指挥者更具效益 
而日常任务所需要的思考过程, 在能力相当的情况下, 并不能作为人们选择 Claude 的一个强硬理由 
 [654cf6680d32858dfba9af644f8c4a5b04425af1-2600x2360]