@i7KK 在 关于LLM蒸馏模型本地部署的显存要求疑问 中发帖
好用的大语言本地模型部署一直是我个人的一个愿望,然而现有的消费级硬件面对动辄上千亿的参数量的满血开源模型也只能是望洋兴叹。
诸如ollama等平台给出了便利部署蒸馏小模型的方案,诸如qwen3:4b-32b的。但是近期个人在尝试的时候,发现4090能勉强运行30b-32b的模型。但是当上下文长度一大,模型计算和回复的速度显著降低。查阅资料发现应该是撑爆显存了。于是遂降低模型参数,用4b来尝试(显然能力层面跟大模型很难相比,但至少有稳定的供给),但任然有很多疑问。
特来像大佬请教,对于开源小模型参数的选择和显存/内存管理有没有参考和计算标准?
1.常用消费级显卡3090ti-4090-5090,显存在24-32g之间,如果不只是用于简单聊天,对上下文长度有一定要求,建议的开源模型是什么?对应的上下文长度控制在多少比较合适(计算速度+指令遵循…)?
2.对未来硬件设备的选购建议,NVI...