level5土拨鼠 (@giveMI5)qwen3.5自部署,思考过程是英文 中发帖

用4张3090部署的Qwen3.5-27B,使用的命令是 CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /LLModels/Qwen/Qwen3.5-27B  --served-model-name qwen  --host 0.0.0.0   --port 8102   --tensor-parallel-size 4   --dtype auto   --gpu-memory-utilization 0.8  --max-model-len 16384  --enable-auto-tool-choice --tool-call-parser qwen3_coder,只要开toolparse,思考过程就是英文的,目前的回答是{“id”:“chatcmpl-988b73598fc56004”,“object”:“chat.completion”,“cre...