@spiraea 在 如何改善Qwen3 8B模型在对话中重复输出的问题? 中发帖
最近Qwen3发布后好评很多,于是在本地的8G甜品卡上用ollama跑了一个玩玩。
我使用的模型是Josiefied-Qwen3-8B-abliterated-v1-Q6_K.gguf
6.73GB,作者给的评价Very high quality, near perfect, recommended
使用过程中发现一个问题:
当对话达到一定长度,明显感觉模型就无话可说了,开始大量的重复。
尤其时当我希望它输出得长一些时,甚至直接就卡循环了。
自己做了一些功课:
Unsloth对模型给出的建议:
For thinking mode (enable_thinking=True), use Temperature=0.6, TopP=0.95, TopK=20, and MinP=0. DO NOT use greedy decoding, as it can lead...