@mhycy 在折腾几天测试用大模型写代码，烧了百来刀得出一些结论中发帖测试了好几天，基于 OpenRouter 的 API 烧了百来刀，也付费了 Cursor 测试模型： DeepSeek (火山云) QwQ (阿里) DouBao (火山云) Claude (OpenRouter) Grok3 (AICNN) Gemini (OpenRouter) 结论: 除了 Claude 其他模型都不会完整实现任何一个文件，即便是着重提示

@mhycy 在折腾几天测试用大模型写代码，烧了百来刀得出一些结论中发帖

测试了好几天，基于 OpenRouter 的 API 烧了百来刀，也付费了 Cursor 
测试模型： 


DeepSeek (火山云) 


QwQ (阿里) 


DouBao (火山云) 


Claude (OpenRouter) 


Grok3 (AICNN) 


Gemini (OpenRouter) 


结论: 


除了 Claude 其他模型都不会完整实现任何一个文件，即便是着重提示。 


偷懒这一点上 google 家最为离谱，只实现了函数头。 


DeepSeek 不管是 R1 还是 V3 总是倾向于让我自己写代码，代码中间夹杂着大量的省略。且指令依从性并不好，修改过程极为抽象，只能注入提示词强行禁用 diff 修改。 


即便是 Claude 在调用 Agent 编码的过程中必然也是会忘记之前写的东西 


忘记之前写的东西的明确特征是 diff 的输...