xico 在 DeepSeek V3 代码能力评测:在 Aider 编辑任务中超越 Claude 3.5 中发帖
DeepSeek V3 与主流模型性能对比
数据来源:
LiveBench 评测: livebench.ai
Aider 代码编辑能力评测: aider.chat/docs/leaderboards
内容概要
📊 LiveBench 综合测试
DeepSeek V3 的整体得分在 TOP5 行列 (第5名)
在代码能力上表现优异,仅次于 o1-2024-12-17-high 和 Claude 3.5 Sonnet (20241022版)
🔧 Aider 代码编辑测试
DeepSeek V3 的完成正确率为 48.4%,仅次于 o1-2024-12-17-high
显著超过了包括 Claude 3.5 Sonnet (45.3%) 在内的其他所有模型
展现出极高的格式准确性(98.7%)
详细数据对比
LiveBench 综合评测数据
模型
Global ...