成浩 (@1304058312) 在 单卡A100用vllm部署满血qwen3.6 27B开思考模式总是重复输出 中发帖
如题,我是单张A100 80G显存,使用vllm部署的qwen3.6 27B,开启思考模式总是出现重复输出现象,很奇怪。
想请教一下各位佬,是怎么回事。是我启动时上下文开的太高了吗,我开了256K。
另外,就算不出现复读机现象,这个模型的思维链也太长了,vllm有什么办法或者参数能控制思考等级或者思考长度吗?