amchii 在什么是智能体？中发帖根据个人理解写个更容易理解的回答吧

amchii 在什么是智能体？中发帖

根据个人理解写个更容易理解的回答吧。 
非多模态的LLM只能输入输出文本，市面上可用的agent为什么能进行联网搜索，生成PDF等？关键点还是在于工具调用，以人为例，LLM就是一个只能理解文本的“裸的大脑”。大脑连本书都拿不了因此只能发出指令让“手”去拿书。这里发出的“指令”就是工具调用（tool calls)，“伸手去拿书的过程”就是在执行这个调用。当然这个调用还没结束，因为“书”也是大脑无法理解的，所以还需要眼睛去看书->把书上的内容转为文本再传输给大脑，大脑收到文本之后再进行理解（LLM的能力体现）产生“知识”，至于怎么使用和存储这个“知识”就要看你的设计了。 
 [图片] 
流程 


LLM（裸的大脑）：LLM作为核心处理单元，只能理解文本信息。它无法直接与物理世界互动，因此需要通过工具调用来完成具体任务。 


发出指令：拿书：LLM发出一个指令，要求“拿书”。这个指令相当于工...