視頻生成領域的發展概述:從多級擴散到LLM

2023年是語言模型(llm)和圖像生成技術激增的一年,但是視頻生成受到的關注相對較少。今年剛到2月份,OpenAI就發佈了一個驚人的視頻生成模型Sora。雖然它的架構沒有披露,但是通過總結現有的視頻生成領域可能能對Sora的構架有所理解。

在這篇文章中,我們將整理視頻生成在最近幾年是發展概況,模型的架構是如何發展的,以及現在面臨的突出問題。

我們以時間軸看作是一個觀察視頻生成模型演變的旅程。這將幫助我們理解爲什麼模型是這樣設計的,併爲未來的研究和應用工作提供見解。

https://avoid.overfit.cn/post/6242680847f94e6b8ef3eb2217ce1f89

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章