Harryning 在 【实测】Claude Sonnet 4.6 发布:推理能力暴增 4.3 倍!百万上下文性价比王炸 中发帖
各位 L 友好,
Anthropic 最近更新频率确实快,2 月 17 日发布的 Claude Sonnet 4.6 大家都测了吗?在大家都盯着 GPT-5 的时候,这一代 Sonnet 在“性价比”和“推理深度”这两个点上的进化确实让我有点吃惊。
简单整理了一些核心数据和我的主观实测感受:
🚀 核心升级点
百万级上下文: 窗口从 20 万暴增至 100 万 tokens。虽然超长文本召回偶尔还有点“幻觉”,但处理整个工程代码库的连贯性确实上了一个台阶。
推理能力“离谱”进化: ARC-AGI-2 得分从 13.6% 飙升至 58.3%。实测逻辑题转弯能力强了很多,不再是单纯的概率预测。
编程表现: SWE-bench 到了 79.6%,感觉它现在的思路更接近资深工程师,会先读懂全局逻辑再动手。
自适应思考: 支持低、中、高、最高四档思考强度。简单任务秒回,复杂分析会自己“想”很久...