狮子红 (@jackove0302) 在如何微调大模型语言风格中发帖我想微调一个写小说的大模型：参考数据集 huggingface：b3x0m/Chinese-H-Novels [image] 可以按照模型微调的数据集格式要求，要么遵循alpaca或者sharegpt两种格式，为什么数据集只有text这一个字段，我要如何进行微调呢？ 1.一篇小说的总的token会比较长，微调过程会报错 2. 如何基于上述数据集构建训练模型的数据集 3. 微调建议不是1000+就可以吗？上述数据集的数据量远远超过了有哪位佬可以给出个建议呢？

狮子红 (@jackove0302) 在如何微调大模型语言风格中发帖

我想微调一个写小说的大模型：参考数据集 huggingface：b3x0m/Chinese-H-Novels 
 [image] 
可以按照模型微调的数据集格式要求，要么遵循alpaca或者sharegpt两种格式，为什么数据集只有text这一个字段，我要如何进行微调呢？ 
1.一篇小说的总的token会比较长，微调过程会报错 
2. 如何基于上述数据集构建训练模型的数据集 
3. 微调建议不是1000+就可以吗？上述数据集的数据量远远超过了 
有哪位佬可以给出个建议呢？