湾狐狸🦊 (@baysonfox) 在 记录一下尝试着SFT蒸馏Qwen3-4B的过程(更新中) 中发帖
如题,开始尝试其实有几个理由:想在手机/电脑上试试看跑端侧LLM,但是感觉Qwen3-4B / 8B 不够聪明,想试试蒸馏更大规模的模型;多实践一下用trl/unsloth做SFT/RL,提前把坑踩掉,顺便验证一下一些idea;假期很闲,正好也有几张空的GPU能用(bushi
基线模型是 huihui-ai/Huihui-Qwen3-4B-Thinking-2507-abliterated ,一开始其实是想直接用Qwen/Qwen3-4B-Thinking-2507做基座,SFT之后去试试看如何abliterate,但是感觉abliterate的过程并不是重点,遂直接用他人的模型做基座来SFT。
主要用的是trl和unsloth,机器的配置是 H20 x 4 做 DP (感觉其实也挺慢的 如果有佬有闲置的 H100 / H200算力请务必考虑支持一下(bushi )
global b...