粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在 我有个大胆的想法,RWKV+Diffusion是否是高质量实时翻译的未来? 中发帖
几年前玩过RWKV,也参与过对模型的修修补补,感觉无论是纸面分析,还是实际效果,RWKV都有与transformer一战的潜力。
更何况RWKV的推理过程采用的是加权递归的记忆机制,理论上长程依赖建模能力吊打transformer的垃圾自注意力机制。哦对了,RWKV上下文具有O(n)复杂度,而transformer是O(n^2),又赢了(
那么, 👆 🤓 假如我把RWKV和Diffusion架构混合起来,RWKV负责生成序列,Diffusion负责局部优化,是不是理论上可以把transformer吊起来抽得像陀螺一样转? 😋
我糙,突然想到一点,RWKV模型可能支持流式输入,Diffusion修修改改也不是不可以。所以这种混合架构理论上可以支持流式输入的实时翻译 🤓
V我200张H100,我来验证这个想法。