Terrasse 在 OpenAI Day 2/12 省流 中发帖
开放微调o1系列模型的接口,可以基于传统有监督学习或者强化学习。
直播中以基因病分析为案例,展示了基于强化学习微调的使用流程以及效果:
问题设定:给出病例的基本信息以及病征,模型需要对病因进行推理,最终给出致病基因的可能性排序
训练集&验证集:通过jsonl格式上传
[Screenshot_2024-12-07-02-07-49-615_com.google.android.youtube]
微调耗时:大概几小时到几天不等(o1-mini)
奖励模型:官方提供了多种奖励模式,直播中介绍了根据ground truth在输出可能性排序中的位置确定得分的模式(例如hit@1得1.0分,hit@2得0.7分)
微调结果:o1-mini经过微调,表现超越了o1
[Screenshot_2024-12-07-02-13-58-539_com.google.android.youtube] ...