mumu (@mumuladu)[开源自荐] FastDatasets快速构建自己的大模型微调数据集 中发帖

项目地址
希望大佬们给出一些项目意见,并且跪求一个star~ 💖

项目背景
目前大模型微调的一大难点其实就是数据集,自己制作数据集费时费力,而且往往效果不佳。本项目旨在基于大模型,帮助大家快速生成领域内的数据集,并且直接可以额在Llamafactory等微调框架中使用。
主要功能
1. 基于自由文档生成数据集

智能文档处理:支持多种格式文档的智能分割
问题生成:基于文档内容自动生成相关问题
答案生成:使用 LLM 生成高质量答案
异步处理:支持大规模文档的异步处理
多种导出格式:支持多种数据集格式导出(Alpaca、ShareGPT等)
直接SFT就绪输出:生成适用于监督微调的数据集

2. 数据蒸馏与优化

知识蒸馏:从大模型中提取知识到训练数据集
指令扩增:自动生成指令变体,扩充训练数据
质量优化:使用 LLM 优化和提升数据质量
多格式支持:支持从多种格式的数据集进行蒸馏

界...