@BenA 在大佬们新人多模态大模型VQA性能提升求建议中发帖背景：医疗垂域多模态大模型

@BenA 在大佬们新人多模态大模型VQA性能提升求建议中发帖

背景：医疗垂域多模态大模型。 
目的：希望通过增加细粒度的VQA指令微调数据来增加原有的VQA性能；如从全局的VQA到指定区域的VQA，希望能够在对同一个图片文本对的指令数据的扩增下提升性能。 
问题：发现这种性能提升非常有限，几乎没有效果。 
原先的猜测：能够让LLM学习到更多的不同粒度的文本问答，来提高vqa的能力 
希望：希望有大佬能帮忙我分析分析 一起讨论一下是否可行