fly (@water_ling) 在 感觉 AI 编程的竞争点已经变了:不是谁更会聊天,而是谁更像一个能干活的 Agent 中发帖
最近看了一圈 OpenAI Codex、Claude Code、Gemini、DeepSeek、Qwen 这些东西,感觉 AI 编程工具的竞争方向已经明显变了。
以前大家主要在比:
哪个模型回答更准;
哪个模型写代码更快;
哪个模型上下文更长;
哪个模型 benchmark 分数更高。
但现在我感觉真正的重点开始变成另一个问题:
谁能把一个真实开发任务,从理解需求、读项目、改代码、跑测试、修 bug、解释改动,尽可能完整地跑完。
也就是说,AI 编程正在从“代码补全 / 聊天问答”,变成“Agent Runtime”。
我这里说的 Agent Runtime,不只是模型本身,而是这一整套东西:
模型能力;
工具调用;
终端权限;
文件系统读写;
测试执行;
长期任务规划;
子任务拆分;
上下文管理;
权限控制;
失败回滚;
成本控制;
最终验收。
...