Wyatt_Happy 在 求助:适合DGX-SPARK(共享内存128G)服务器的开源大模型 中发帖
硬件环境是酱的
设备: NVIDIA DGX Spark (GB10)
架构: ARM64 + Blackwell GPU
内存: 128GB 统一内存(CPU/GPU 共享)
系统: Ubuntu 24.04 LTS
CUDA: 13.0 | 驱动 580(自己下的)
需求
开源模型,支持商用(倒是也可以不支持就是小团队开发用)
能 vLLM 启动——需要并行多用户推理(3-5 人同时用)
模型大小 + KV Cache 总量 ≤120GB(留 8GB 给系统)
我是用finalshell部署的
效果不差于 DeepSeek V4 Flash (残血版)级别
下面展示一下已尝试的方案(血泪史)
方案
结果
DeepSeek V4 Flash NVFP4 (168GB)
❌ 128GB 放不下,OOM
DS4 (antirez) Q2 GGUF (80GB)
✅ ...