Sora、Pika文生視頻模型對比

OpenAI 重磅發佈文生視頻模型 Sora,Sora在視頻時長與視覺效果等方面相較於 Pika、Runway 等主流文生視頻工具有了極大幅度的提升。具體來看,Sora 生成的視頻具有超長時長、世界模型、多鏡頭切換的三大特性:

1)超長時長

Sora 可生成長達一分鐘的高清視頻,而此前 Pika、Runway 等模 型生成的視頻時長僅在 20s 以內,在視頻時長大幅提升的同時,視頻具有連貫性,即使人物和其他場景元素被暫時遮擋或離開視野,仍能保持一致性

 

2)世界模型

Sora 不僅能夠深入理解用戶提示,還學會了物理世界的部分規律, 比如一個人喫漢堡後會留下咬痕、火車車窗上會產生逼真的倒影,而 Runway 等模型的擬真程度則相對較弱;

 

3)多鏡頭切換

Sora 可在單個視頻中設計出多個鏡頭,並且能在多角度的鏡頭切換中,實現角色和視覺風格的一致性,而 Runway 等絕大部分模型只能生成單鏡頭視頻。

 

相較於此前的視頻生成模型,Sora 在底層模型和算法上的創新點主要體現在以下三個方面:

 

1)採用 Transformer 架構的擴散模型

不同於 Runway Gen1、Stable Video Diffusion 等擴散模型主要採用經典的 U-Net 架構,Sora 用 Transformer 架構替 換 U-Net 架構,大幅提升模型擴展性;

 

2)訓練視頻數據保持原始大小

 不同於其他視頻生成模型通常預先將視頻調整、 裁剪或修剪爲標準大小,例如裁剪爲分辨率爲 256×256 的 4s 視頻,Sora 在原 始大小的數據上進行訓練,一方面數據採樣更靈活,可以對寬屏 1920×1080p 視頻、垂直 1080×1920 視頻以及介於兩者之間的所有視頻進行採樣,這使 Sora 可以直接以原始寬高比爲不同設備創建內容,另一方面可以改善構圖和取景,在 經過方形裁剪後的視頻上訓練的模型有時主體僅部分可見,而 Sora 生成的視頻 取景得到了明顯改善;

 

3)爲訓練視頻生成詳細的文字描述

其他文生視頻模型通常在大型文本-視頻對 數據集上進行訓練,而Sora採用了DALL·E3和GPT的研究成果,通過爲視頻 訓練數據生成或補充詳細的字幕描述,提升訓練效果,使模型預測更準確。

 

目前 Sora 仍存在一定侷限性,包括無法模擬複雜場景的物理特性、難以理解特 定場景下的因果關係、誤解用戶提示中的空間細節信息,有待於後續的進一步 完善和提升。目前 Sora 模型已向部分專家開放,以評估潛在的風險,同時也正 在向部分設計師、電影製作人、視覺藝術家等授予訪問權限,以獲得使用反饋。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章