@mark4 在国内模型后端编程真实大横评！基于公司真实落地项目测试，基于模板代码作为参考中发帖[image] 1、测试工具和参与的模型：统一使用 claude code 参与测试的模型：Opus4.6(max 官转，共花费 52 刀)、glm-5(官key)、MiniMax-M2.5(官 key)、kimi-k2.5(0.99 刀的订阅) 2、测试项目和环境变量说明：仅测试后端java，基于公司已经落地生产的项目，用已有的代码，反向生成了spec文档把整个模块的代码删除后，分三轮工程，每轮都是一次生成代码 + 一次代码审查和接口测试，加上第一次的 init，因此每个模型都是固定的 7 轮对话，和 7 次固定的提示词，共新增 11 个接口 3、测试和评比说明 a-用已经通过测试的代码作为模板代码，对比模型生成的代码做对比 b-共10个场景，31 个接口的全量回放，全量接口测试并查数据库验证落库（场景包括分摊扣减、驳回清理、剩余分摊金额重算、版本快照和审计追溯...

@mark4 在国内模型后端编程真实大横评！基于公司真实落地项目测试，基于模板代码作为参考中发帖

[image] 
1、测试工具和参与的模型： 
统一使用 claude code 参与测试的模型：Opus4.6(max 官转，共花费 52 刀)、glm-5(官key)、MiniMax-M2.5(官 key)、kimi-k2.5(0.99 刀的订阅) 
2、测试项目和环境变量说明： 
仅测试后端java，基于公司已经落地生产的项目，用已有的代码，反向生成了spec文档 
把整个模块的代码删除后，分三轮工程，每轮都是一次生成代码 + 一次代码审查和接口测试，加上第一次的 init，因此每个模型都是固定的 7 轮对话，和 7 次固定的提示词，共新增 11 个接口 
3、测试和评比说明 
a-用已经通过测试的代码作为模板代码，对比模型生成的代码做对比 
b-共10个场景，31 个接口的全量回放，全量接口测试并查数据库验证落库（场景包括 分摊扣减、驳回清理、剩余分摊金额重算、版本快照和审计追溯...