xicoDeepSeek V3 代码能力评测:在 Aider 编辑任务中超越 Claude 3.5 中发帖

DeepSeek V3 与主流模型性能对比

数据来源:
LiveBench 评测: livebench.ai
Aider 代码编辑能力评测: aider.chat/docs/leaderboards

内容概要

📊 LiveBench 综合测试

DeepSeek V3 的整体得分在 TOP5 行列 (第5名)
在代码能力上表现优异,仅次于 o1-2024-12-17-high 和 Claude 3.5 Sonnet (20241022版)

🔧 Aider 代码编辑测试

DeepSeek V3 的完成正确率为 48.4%,仅次于 o1-2024-12-17-high
显著超过了包括 Claude 3.5 Sonnet (45.3%) 在内的其他所有模型
展现出极高的格式准确性(98.7%)


详细数据对比
LiveBench 综合评测数据





模型
Global ...