@UzkiS 在 大佬们本地双卡3080都是如何部署大模型的? 中发帖
双卡3080 20G,打算用docker部署AWQ的Qwen27b或者35b,都是让opencode来配,遇到点问题
一开始打算用vllm,但是无论27b还是35b,openclaw多轮对话后都会从100t/s 50t/s掉到2-3t/s
然后打算用sglang,结果是我无论用什么AWQ模型都拉不起来,我很郁闷
llama.cpp好像能跑吧 openclaw虽然也会掉速 但是多轮对话至少是能稳定在10-20t/s,但是考虑到并发我不是很想选他
大伙们有实操案例吗 我折腾好几天了 😥