arch现在做AI agent开发的日常 中发帖

以前写代码是确定性的:分析完设计文档之后,思考所有细节,然后编码, 各种模块各种方法,输入A,输出B,逻辑清晰。现在是直接上cc ,codex ,弄几个插件,连个mcp, 然后写一堆提示词,和AI 反复确认提示词中细节,再让AI跑一遍,只希望这次agent不要给我整个意想不到的操作,一次ok就好。 如果出问题了,就会盯着输出日志分析:它为什么要这么干? 
调试现在是心理分析,不是真debug,而是揣摩这个AI到底在想什么。改一个词,结果就不同。加个例子,又跑偏了。你得像驯兽师一样,慢慢摸清它的脾气。更新模型了,然后还得重新去摸脾气。
头疼的是评估。传统软件跑个单元测试就完事,agent怎么测?同样的输入跑十次,十个结果。哪个算对?标准在哪?也没人知道。
还有上周的最佳实践这周就过时了。整个行业都在边跑边造飞机。人人都在造轮子。。。
写代码的时间没了,精力都花在观察、分析、调参、写评估...