LINUX DO Channel

@kooo13579 在字節跳動似乎正準備推出一個新的視頻生成模型 - Alive 中发帖

概述
Alive是一款統一的音視頻生成模型，它將預先訓練的文本轉視頻 (T2V) 模型應用於音視頻生成和動畫製作。模型基於 MMDiT 架構，可實現工業級的逼真音視訊生成和動畫效果。 
主要特點


🎬 統一音視訊產生：在單一框架內同時支援文字轉視訊和音訊 (T2VA) 以及參考轉視訊和音訊（動畫）。 


⚙ 高階架構：採用 TA-CrossAttn 實現時間對齊的跨模態融合，採用 UniTemp-RoPE 實現精確的視聽對齊。 


📊 高品質資料管道：對百萬級訓練資料進行全面的音視訊字幕和品質控制。 


🏆 SOTA 效能：持續超越開源模型，並達到或超過最先進的商業解決方案。 




不知道是不是開源的