Terrasse 在 OpenAI Day 2/12 省流中发帖开放微调o1系列模型的接口，可以基于传统有监督学习或者强化学习

Terrasse 在 OpenAI Day 2/12 省流中发帖

开放微调o1系列模型的接口，可以基于传统有监督学习或者强化学习。 
直播中以基因病分析为案例，展示了基于强化学习微调的使用流程以及效果： 

问题设定：给出病例的基本信息以及病征，模型需要对病因进行推理，最终给出致病基因的可能性排序
训练集&验证集：通过jsonl格式上传

[Screenshot_2024-12-07-02-07-49-615_com.google.android.youtube] 

微调耗时：大概几小时到几天不等（o1-mini）
奖励模型：官方提供了多种奖励模式，直播中介绍了根据ground truth在输出可能性排序中的位置确定得分的模式（例如hit@1得1.0分，hit@2得0.7分）
微调结果：o1-mini经过微调，表现超越了o1

[Screenshot_2024-12-07-02-13-58-539_com.google.android.youtube] ...