Carlos 在 佬友们,我没招了,请求无所不能,无所不晓,无所不知的佬友给点主意 中发帖
项目背景
鼠鼠是一名大三本科生。在大二学期末时,导师给了鼠鼠一个关于稀有病预测的项目,主要任务是预测患者在使用某款药物后是否有效。
项目提供了三类数据:
图像数据
文本数据
表格数据
初步思路
鼠鼠最初的想法是做 多模态学习。实际实验结果表明,多模态的效果确实优于单一模态,但由于数据集规模过小(仅有 140 个患者),并且图像数据属于包文件形式(多示例问题),因此遇到了一些困难。
遇到的问题
数据量小:140 个患者,属于小样本问题。
多示例学习难点:患者的图像是包文件,不是单一输入。
模态性能不均衡:
表格数据与文本数据模型表现较好
图像模型性能很差,严重拖累了整体多模态模型效果
甲方(医院)需求重点:必须关注 图像数据,因为他们需要基于图像去探究病变机理。
当前结果
平均准确率:0.78
交叉验证最佳一折:0.92
导师要求:0.85+
虽然已经尝试过各种自监督...