虹连 (@user924) 在 Qwen3.5-27B 100Token/s 单卡本地运行! 中发帖
非推广,纯分享,和下方参考视频、Github项目均无利益关系!
众所周知,Qwen3.5-27B 在多方面的能力表现惊艳,甚至能打一两年前的大模型,然而在本地部署中,其较低的速度往往让体验大打折扣,即使是 90 级别显卡也只有二三十 Token/s,远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。
然而! 在几天前,一个工作将最近的新解码算法给出了消费级显卡的实现,其宣称能直接在本地单张3090,实现上百 Token/s 甚至更高的解码速度,他就是 lucebox-hub。
其将最近的两个推理相关优化工作,一个是一个是 DFlash,另一个是 DDTree,真正做成了能在本地消费级显卡上跑起来的版本(24G显存级别)。
关于这两个工作的原理,感兴趣的可以去看看原文。值得注意的是:
lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF ...