cedric chen (@cedricthecoder)佬友们如何评价一个code agent的好坏(基座模型相同的前提下),目前的benchmark局限性太多 中发帖

抛砖引玉 
在长时间深度使用多种code agent之后(开源的:Cline, Kilo Code,闭源的:Claude Code, Cursor, Augment Code, Kiro, Qodo, Droid 国内的:Trae, Code Buddy, Qwen Code … )
这里有的是原生AI ide, 有的是插件,有的是Cli,种类可谓五花八门。
目前感受比较明显的是两方面:工具调用成功率, 读取代码片段准确率(防止上下文腐烂)。这两点在不同agent下差距非常大,甚至同一个插件在Jetbrains和vscode上的表现都差很多。