mumu (@mumuladu) 在 [开源自荐] FastDatasets快速构建自己的大模型微调数据集中发帖项目地址希望大佬们给出一些项目意见，并且跪求一个star~ 💖 项目背景目前大模型微调的一大难点其实就是数据集，自己制作数据集费时费力，而且往往效果不佳

mumu (@mumuladu) 在 [开源自荐] FastDatasets快速构建自己的大模型微调数据集中发帖

项目地址
希望大佬们给出一些项目意见，并且跪求一个star~ 💖 

项目背景
目前大模型微调的一大难点其实就是数据集，自己制作数据集费时费力，而且往往效果不佳。本项目旨在基于大模型，帮助大家快速生成领域内的数据集，并且直接可以额在Llamafactory等微调框架中使用。 
主要功能
1. 基于自由文档生成数据集

智能文档处理：支持多种格式文档的智能分割
问题生成：基于文档内容自动生成相关问题
答案生成：使用 LLM 生成高质量答案
异步处理：支持大规模文档的异步处理
多种导出格式：支持多种数据集格式导出（Alpaca、ShareGPT等）
直接SFT就绪输出：生成适用于监督微调的数据集

2. 数据蒸馏与优化

知识蒸馏：从大模型中提取知识到训练数据集
指令扩增：自动生成指令变体，扩充训练数据
质量优化：使用 LLM 优化和提升数据质量
多格式支持：支持从多种格式的数据集进行蒸馏

界...