粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在我有个大胆的想法，RWKV+Diffusion是否是高质量实时翻译的未来？中发帖几年前玩过RWKV，也参与过对模型的修修补补，感觉无论是纸面分析，还是实际效果，RWKV都有与transformer一战的潜力

粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在我有个大胆的想法，RWKV+Diffusion是否是高质量实时翻译的未来？中发帖

几年前玩过RWKV，也参与过对模型的修修补补，感觉无论是纸面分析，还是实际效果，RWKV都有与transformer一战的潜力。 
更何况RWKV的推理过程采用的是加权递归的记忆机制，理论上长程依赖建模能力吊打transformer的垃圾自注意力机制。哦对了，RWKV上下文具有O(n)复杂度，而transformer是O(n^2)，又赢了（ 
那么， 👆 🤓 假如我把RWKV和Diffusion架构混合起来，RWKV负责生成序列，Diffusion负责局部优化，是不是理论上可以把transformer吊起来抽得像陀螺一样转？ 😋 
我糙，突然想到一点，RWKV模型可能支持流式输入，Diffusion修修改改也不是不可以。所以这种混合架构理论上可以支持流式输入的实时翻译 🤓 
V我200张H100，我来验证这个想法。