Sora、Pika文生視頻模型對比

原創

邴越

2024-02-19 13:16

OpenAI 重磅發佈文生視頻模型 Sora，Sora在視頻時長與視覺效果等方面相較於 Pika、Runway 等主流文生視頻工具有了極大幅度的提升。具體來看，Sora 生成的視頻具有超長時長、世界模型、多鏡頭切換的三大特性：

1）超長時長

Sora 可生成長達一分鐘的高清視頻，而此前 Pika、Runway 等模型生成的視頻時長僅在 20s 以內，在視頻時長大幅提升的同時，視頻具有連貫性，即使人物和其他場景元素被暫時遮擋或離開視野，仍能保持一致性

2）世界模型

Sora 不僅能夠深入理解用戶提示，還學會了物理世界的部分規律，比如一個人喫漢堡後會留下咬痕、火車車窗上會產生逼真的倒影，而 Runway 等模型的擬真程度則相對較弱;

3）多鏡頭切換

Sora 可在單個視頻中設計出多個鏡頭，並且能在多角度的鏡頭切換中，實現角色和視覺風格的一致性，而 Runway 等絕大部分模型只能生成單鏡頭視頻。

相較於此前的視頻生成模型，Sora 在底層模型和算法上的創新點主要體現在以下三個方面:

1）採用 Transformer 架構的擴散模型

不同於 Runway Gen1、Stable Video Diffusion 等擴散模型主要採用經典的 U-Net 架構，Sora 用 Transformer 架構替換 U-Net 架構，大幅提升模型擴展性;

2）訓練視頻數據保持原始大小

不同於其他視頻生成模型通常預先將視頻調整、裁剪或修剪爲標準大小，例如裁剪爲分辨率爲 256×256 的 4s 視頻，Sora 在原始大小的數據上進行訓練，一方面數據採樣更靈活，可以對寬屏 1920×1080p 視頻、垂直 1080×1920 視頻以及介於兩者之間的所有視頻進行採樣，這使 Sora 可以直接以原始寬高比爲不同設備創建內容，另一方面可以改善構圖和取景，在經過方形裁剪後的視頻上訓練的模型有時主體僅部分可見，而 Sora 生成的視頻取景得到了明顯改善;

3）爲訓練視頻生成詳細的文字描述

其他文生視頻模型通常在大型文本-視頻對數據集上進行訓練，而Sora採用了DALL·E3和GPT的研究成果，通過爲視頻訓練數據生成或補充詳細的字幕描述，提升訓練效果，使模型預測更準確。

目前 Sora 仍存在一定侷限性，包括無法模擬複雜場景的物理特性、難以理解特定場景下的因果關係、誤解用戶提示中的空間細節信息，有待於後續的進一步完善和提升。目前 Sora 模型已向部分專家開放，以評估潛在的風險，同時也正在向部分設計師、電影製作人、視覺藝術家等授予訪問權限，以獲得使用反饋。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Sora、Pika文生視頻模型對比

1）超長時長

2）世界模型

3）多鏡頭切換

1）採用 Transformer 架構的擴散模型

2）訓練視頻數據保持原始大小

3）爲訓練視頻生成詳細的文字描述

關於遊戲付費的一點想法

我通過CKA和CKS啦！

2024年3月更新，10個AI繪畫工具推薦

Sora、Pika文生視頻模型對比

AI電商時代開始：阿里能否反殺拼多多

先講結論、邏輯先行，6個必備的職場技能

管理的本質是控制還是理解？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結