Lin (@oscarmei) 在 claude发布了sonnet4.5 中发帖
截取部分sonnet4.5自我分析评价
技术规格与核心能力
基础架构:
模型标识符:claude-sonnet-4-5-20250929
上下文窗口:200,000 tokens(标准),支持1百万 tokens(Beta版本,使用特殊头部)
最大输出:64,000 tokens
训练数据截止:2025年7月(可靠知识截止至2025年1月)
混合推理模型:可在标准模式(近乎即时响应)和扩展思考模式(深度推理)之间切换
突破性功能:
编码卓越性:在 SWE-bench Verified 基准测试中达到 77.2%(使用测试时计算可达 82.0%),这是衡量真实世界软件工程能力的行业领先基准。在 Anthropic 的内部代码编辑基准测试中,Sonnet 4.5 的错误率为 0%,而 Sonnet 4.0 为 9%。
长时自主运行:可以在复杂的多步骤任务上保持专注超过 30...