吾当会与绝顶 (@tianyang)各位佬有在本地试过llava-llama3-vision 模型吗 中发帖

这个模型为什么我识别文字,他非要根据图片中的文字进行问答,我只需他他识别文字并返回,是不是我的提示不对