@mhycy 在 折腾几天测试用大模型写代码,烧了百来刀得出一些结论 中发帖
测试了好几天,基于 OpenRouter 的 API 烧了百来刀,也付费了 Cursor
测试模型:
DeepSeek (火山云)
QwQ (阿里)
DouBao (火山云)
Claude (OpenRouter)
Grok3 (AICNN)
Gemini (OpenRouter)
结论:
除了 Claude 其他模型都不会完整实现任何一个文件,即便是着重提示。
偷懒这一点上 google 家最为离谱,只实现了函数头。
DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码,代码中间夹杂着大量的省略。且指令依从性并不好,修改过程极为抽象,只能注入提示词强行禁用 diff 修改。
即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西
忘记之前写的东西的明确特征是 diff 的输...