CeFf1z (@HuXing) 在 当今VLA的SOTA模型结构是怎么样的 中发帖
VLA初学者,了解到action有多种方式表达和输出。想问问大家当前较为领先的VLA模型架构是怎么样的,我搜集到的现在大多采用chunk输出,基于diffusion的连续输出和基于离散token的输出有分出优势吗?
另外有没有一个比较多的当前VLA模型的一个对比的结果可以参考 😬