arch 在现在做AI agent开发的日常中发帖以前写代码是确定性的：分析完设计文档之后，思考所有细节，然后编码，各种模块各种方法，输入A，输出B，逻辑清晰

arch 在现在做AI agent开发的日常中发帖

以前写代码是确定性的：分析完设计文档之后，思考所有细节，然后编码， 各种模块各种方法，输入A，输出B，逻辑清晰。现在是直接上cc ，codex ，弄几个插件，连个mcp, 然后写一堆提示词，和AI 反复确认提示词中细节，再让AI跑一遍，只希望这次agent不要给我整个意想不到的操作，一次ok就好。 如果出问题了，就会盯着输出日志分析：它为什么要这么干？ 
调试现在是心理分析，不是真debug，而是揣摩这个AI到底在想什么。改一个词，结果就不同。加个例子，又跑偏了。你得像驯兽师一样，慢慢摸清它的脾气。更新模型了，然后还得重新去摸脾气。 
头疼的是评估。传统软件跑个单元测试就完事，agent怎么测？同样的输入跑十次，十个结果。哪个算对？标准在哪？也没人知道。 
还有上周的最佳实践这周就过时了。整个行业都在边跑边造飞机。人人都在造轮子。。。 
写代码的时间没了，精力都花在观察、分析、调参、写评估...