@BenA大佬们新人多模态大模型VQA性能提升求建议 中发帖

背景:医疗垂域多模态大模型。 
目的:希望通过增加细粒度的VQA指令微调数据来增加原有的VQA性能;如从全局的VQA到指定区域的VQA,希望能够在对同一个图片文本对的指令数据的扩增下提升性能。
问题:发现这种性能提升非常有限,几乎没有效果。
原先的猜测:能够让LLM学习到更多的不同粒度的文本问答,来提高vqa的能力
希望:希望有大佬能帮忙我分析分析 一起讨论一下是否可行