湾狐狸🦊 (@baysonfox) 在记录一下尝试着SFT蒸馏Qwen3-4B的过程（更新中）中发帖如题，开始尝试其实有几个理由：想在手机/电脑上试试看跑端侧LLM，但是感觉Qwen3-4B / 8B 不够聪明，想试试蒸馏更大规模的模型；多实践一下用trl/unsloth做SFT/RL，提前把坑踩掉，顺便验证一下一些idea；假期很闲，正好也有几张空的GPU能用（bushi 基线模型是 huihui-ai/Huihui-Qwen3-4B-Thinking-2507-abliterated ，一开始其实是想直接用Qwen/Qwen3-4B-Thinking-2507做基座，SFT之后去试试看如何abliterate，但是感觉abliterate的过程并不是重点，遂直接用他人的模型做基座来SFT

湾狐狸🦊 (@baysonfox) 在记录一下尝试着SFT蒸馏Qwen3-4B的过程（更新中）中发帖

如题，开始尝试其实有几个理由：想在手机/电脑上试试看跑端侧LLM，但是感觉Qwen3-4B / 8B 不够聪明，想试试蒸馏更大规模的模型；多实践一下用trl/unsloth做SFT/RL，提前把坑踩掉，顺便验证一下一些idea；假期很闲，正好也有几张空的GPU能用（bushi 
基线模型是 huihui-ai/Huihui-Qwen3-4B-Thinking-2507-abliterated ，一开始其实是想直接用Qwen/Qwen3-4B-Thinking-2507做基座，SFT之后去试试看如何abliterate，但是感觉abliterate的过程并不是重点，遂直接用他人的模型做基座来SFT。 
主要用的是trl和unsloth，机器的配置是 H20 x 4 做 DP (感觉其实也挺慢的 如果有佬有闲置的 H100 / H200算力请务必考虑支持一下（bushi ) 
global b...