@Spiral 在【求助】关于大模型垂直领域微调的一些问题中发帖新手小白请教，我目前在微调一个大模型使其能根据教材的内容回答用户的问题

@Spiral 在【求助】关于大模型垂直领域微调的一些问题中发帖

新手小白请教，我目前在微调一个大模型使其能根据教材的内容回答用户的问题。数据集方面我是利用 easy-dataset和gemini对我整理好的markdown格式的一本关于计算机组成原理的教材生成的，大概有3000条。然后用的 LLaMA-Factory 微调了Qwen 7B的模型。 
结果是感觉微调的效果很一般，思来想去感觉还是大概率还是数据集的问题。想问问佬们们遇到类似的场景是怎么构建高质量的数据集，怎么才能算的上是高质量的数据，必须要对ai生成的数据一个一个数据人工筛选一遍吗。