my3jie想探讨一下,大模型处理视觉问题,路线是不太正确吗? 中发帖

llm处理文本类问题,很接近人类方式,可以处理视觉问题,比如识别一个物体需要几百张照片,人类不会这样学习识别物体。 
个人感觉是人类经过进化,大脑内置了很多识别物体的能力或者信息,而大脑识别物体的确切机制可能是llm下一阶段的导向