my3jie 在想探讨一下，大模型处理视觉问题，路线是不太正确吗？中发帖llm处理文本类问题，很接近人类方式，可以处理视觉问题，比如识别一个物体需要几百张照片，人类不会这样学习识别物体

my3jie 在想探讨一下，大模型处理视觉问题，路线是不太正确吗？中发帖

llm处理文本类问题，很接近人类方式，可以处理视觉问题，比如识别一个物体需要几百张照片，人类不会这样学习识别物体。 
个人感觉是人类经过进化，大脑内置了很多识别物体的能力或者信息，而大脑识别物体的确切机制可能是llm下一阶段的导向