level5土拨鼠 (@giveMI5) 在 qwen3.5自部署,思考过程是英文 中发帖
用4张3090部署的Qwen3.5-27B,使用的命令是 CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /LLModels/Qwen/Qwen3.5-27B --served-model-name qwen --host 0.0.0.0 --port 8102 --tensor-parallel-size 4 --dtype auto --gpu-memory-utilization 0.8 --max-model-len 16384 --enable-auto-tool-choice --tool-call-parser qwen3_coder,只要开toolparse,思考过程就是英文的,目前的回答是{“id”:“chatcmpl-988b73598fc56004”,“object”:“chat.completion”,“cre...