leee 在 佬们,这个部署模型的话还有什么优化空间吗 中发帖
操作系统Ubuntu 22.04 LTS
内存128G
显卡2张5090 32G(不是我买的,虽然同等价位可以用Pro6000)
存储2T(系统盘 /) + 4 T NVMe SSD(数据盘 /data
CPU:W7-3465X
目前部署的是这些
vLLM部署: Qwen3-32B-Instruct int8、DeepSeek-R1-Distill-Qwen-7B-int4、bge-m3 FP16、bge-reranker-v2.1 FP16、Qwen2.5-VL-7B INT4、uie-base、PP-OCRv4、chinese-macbert-base、nlp_contentsecurity_bert_base、Whisper-large-v3-turbo
RAG 知识库、业务 API 调用(OA/ERP/MES))
向量库Qdrant
Open WebUI
Di...