@mhycy折腾几天测试用大模型写代码,烧了百来刀得出一些结论 中发帖

测试了好几天,基于 OpenRouter 的 API 烧了百来刀,也付费了 Cursor 
测试模型:


DeepSeek (火山云)


QwQ (阿里)


DouBao (火山云)


Claude (OpenRouter)


Grok3 (AICNN)


Gemini (OpenRouter)


结论:


除了 Claude 其他模型都不会完整实现任何一个文件,即便是着重提示。


偷懒这一点上 google 家最为离谱,只实现了函数头。


DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码,代码中间夹杂着大量的省略。且指令依从性并不好,修改过程极为抽象,只能注入提示词强行禁用 diff 修改。


即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西


忘记之前写的东西的明确特征是 diff 的输...