@kooo13579字節跳動似乎正準備推出一個新的視頻生成模型 - Alive 中发帖

概述
Alive是一款統一的音視頻生成模型,它將預先訓練的文本轉視頻 (T2V) 模型應用於音視頻生成和動畫製作。模型基於 MMDiT 架構,可實現工業級的逼真音視訊生成和動畫效果。
主要特點


🎬 統一音視訊產生:在單一框架內同時支援文字轉視訊和音訊 (T2VA) 以及參考轉視訊和音訊(動畫)。


高階架構:採用 TA-CrossAttn 實現時間對齊的跨模態融合,採用 UniTemp-RoPE 實現精確的視聽對齊。


📊 高品質資料管道:對百萬級訓練資料進行全面的音視訊字幕和品質控制。


🏆 SOTA 效能:持續超越開源模型,並達到或超過最先進的商業解決方案。




不知道是不是開源的