虹连 (@user924) 在 Qwen3.5-27B 100Token/s 单卡本地运行！中发帖非推广，纯分享，和下方参考视频、Github项目均无利益关系！众所周知，Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅

虹连 (@user924) 在 Qwen3.5-27B 100Token/s 单卡本地运行！中发帖

非推广，纯分享，和下方参考视频、Github项目均无利益关系！
众所周知，Qwen3.5-27B 在多方面的能力表现惊艳，甚至能打一两年前的大模型，然而在本地部署中，其较低的速度往往让体验大打折扣，即使是 90 级别显卡也只有二三十 Token/s，远不如 Qwen3.5-35B-A3B 这种 MoE 模型来得舒畅。 
然而！ 在几天前，一个工作将最近的新解码算法给出了消费级显卡的实现，其宣称能直接在本地单张3090，实现上百 Token/s 甚至更高的解码速度，他就是 lucebox-hub。 
其将最近的两个推理相关优化工作，一个是一个是 DFlash，另一个是 DDTree，真正做成了能在本地消费级显卡上跑起来的版本（24G显存级别）。 
关于这两个工作的原理，感兴趣的可以去看看原文。值得注意的是： 

lucebox-hub 是基于 Qwen3.5-27B Q4_K_M GGUF ...