欣 郁 (@user1164) 在 DGX Spark 是不是被人低估了? 中发帖
我才意识到:
1)能低精度计算,对推理速度至关重要!
2)除了nvida以外,其他家的显卡对低精度计算的支持是多么地弱!
事情是这样的:
我最近在用我的4070tis 16g跑ideogram4(最新的开源图生图模型,conditional和unconditional模型nvfp4下5.5g),我怕爆显存于是就用nvfp4跑,发现速度奇慢。
我很不解,问了gpt才知道:40系(Ada Lovelace系)居然不支持nvfp4下的计算!所以nvfp4对40系显卡而言仅仅是节省了显存,实际计算是:
1)先反量化到bf16;
2)再分层计算。
所以速度很慢——很粗略地说等于花了“bf16的生图时间+反量化时间”。
作为对比,我改用FP8跑(conditional和unconditional模型,FP8下 9.3g),comfyui可以动态加载显存于是不会爆显存,果然4070t...