zhangboyu (@zhangboyu2011)试了下腾讯混元3D大世界模型,感觉是拿伪3D在碰瓷 中发帖

早上刷到个邀请,试了下腾讯混元的 3D 世界生成 
以为会是 Google 那种,能理解语义、生成真 3D 模型的大活儿,结果发现完全不是那么回事
我理想中的真 3D 生成,起码得是:AI 知道场景里是什么,能独立生成一个个完整的模型。比如一个苹果,你得能 360 度转着看,没死角吧?然后再把这些玩意儿拼成一个能随便逛的 3D 空间
混元这个实现路径,给我的感觉更像是一种 2.5D 或者“深度图拉伸”技术。整个流程拆解下来是这样的:


基于一张 2D 图片(或者由文生图模型先生成一张)。


接着,模型 AI 能力的核心似乎是用在为这张 2D 图生成一张配套的深度图(Depth Map)上。


关键一步来了,它根据深度图的远近信息,把 2D 图片的像素“拉伸”成一个带高低起伏的网格模型(Mesh)。


最后,把最开始那张 2D 图片作为纹理,直接贴回到这个被拉伸的模型上。 ...