狮子 红 (@jackove0302) 在 如何微调大模型语言风格 中发帖
我想微调一个写小说的大模型:参考数据集 huggingface:b3x0m/Chinese-H-Novels
[image]
可以按照模型微调的数据集格式要求,要么遵循alpaca或者sharegpt两种格式,为什么数据集只有text这一个字段,我要如何进行微调呢?
1.一篇小说的总的token会比较长,微调过程会报错
2. 如何基于上述数据集构建训练模型的数据集
3. 微调建议不是1000+就可以吗?上述数据集的数据量远远超过了
有哪位佬可以给出个建议呢?