amchii 在 什么是智能体? 中发帖
根据个人理解写个更容易理解的回答吧。
非多模态的LLM只能输入输出文本,市面上可用的agent为什么能进行联网搜索,生成PDF等?关键点还是在于工具调用,以人为例,LLM就是一个只能理解文本的“裸的大脑”。大脑连本书都拿不了因此只能发出指令让“手”去拿书。这里发出的“指令”就是工具调用(tool calls),“伸手去拿书的过程”就是在执行这个调用。当然这个调用还没结束,因为“书”也是大脑无法理解的,所以还需要眼睛去看书->把书上的内容转为文本再传输给大脑,大脑收到文本之后再进行理解(LLM的能力体现)产生“知识”,至于怎么使用和存储这个“知识”就要看你的设计了。
[图片]
流程
LLM(裸的大脑):LLM作为核心处理单元,只能理解文本信息。它无法直接与物理世界互动,因此需要通过工具调用来完成具体任务。
发出指令:拿书:LLM发出一个指令,要求“拿书”。这个指令相当于工...