摳圖劇“一毛特效”不忍直視,以假亂真纔是AI視頻摳圖的真水平

粗製濫造的摳圖影視劇畫面簡直不忍直視,真正的摳圖技術應該是什麼樣的?

影視劇摳圖亂象頻出,AI摳圖以假亂真

這幾年,影視劇摳圖亂象頻出,粗糙、簡陋的摳像操作所呈現出的“一毛特效”簡直不忍直視,硬生生碾壓了“五毛特效”。

摳圖過的畫面具有很多典型的“硬傷”:人像比例失調、表情僵硬,人物與背景結合生硬,背景虛化等,令人打眼一看上去就覺得十分違和,嚴重影響了用戶的觀看體驗。

阿里巴巴資深算法專家任海兵在接受InfoQ採訪時表示,現在很多影視劇摳圖技術“太假”、特效效果不好,一方面因爲拍攝經驗不足,無法和摳圖技術很好的配合,另一方面可能是因爲後期製作費用不足,導致後期沒有人工仔細校驗修改。

其實,摳圖是影視劇後期使用非常普遍的一種技術,例如在好萊塢的電影拍攝過程中特效製作基本都會使用綠幕拍攝,然後通過後期摳圖合成技術。

不過這項技術大多數時候都用不上。製片人何靜曾表示,這類技術使用的比例一般控制在5%至10%,多用在無法正常拍攝或者無法實現以及不能呈現最佳效果的情況下。

但現在因爲製作成本,演員演技、檔期衝突等因素,大面積摳圖的影視劇越來越多,且質量堪憂,給觀衆一種摳圖技術很不靠譜的感覺,這傷害了技術本身,也讓技術污名化。

不能否認的是,隨着摳圖技術更加成熟以及影視劇、視頻製作的需要,智能摳圖將是大勢所驅。如何讓摳圖更加逼真,效果更加自然,AI將在其中發揮越來越關鍵的作用。現在已有很多修圖軟件應用上了AI,隨着視頻AI算法的發展,視頻智能摳圖也開始新興起來。

此外,長期來看,智能摳圖也將是節省成本、提高效率和精度的最優選擇。

相對於手工PS來說,智能摳圖優勢突出,一方面,可以大幅度提高摳圖效率。以圖像摳圖爲例,一個複雜的人物手工摳圖需要手工幾分鐘時間;而利用交互式智能摳圖算法,幾秒鐘就可以完成。智能摳圖還可以達到“毛髮畢現”的效果,凸顯毛髮部分的分割精度,這是人手工幾乎無法完成的。

傳統的圖像摳圖算法都是基於非深度學習的算法,例如KNN matting,Closed-Form matting,Bayesian matting等。AI摳圖是利用深度學習算法從圖像和視頻中把用戶感興趣的物體扣出來,可以把摳出來的物體放到新的背景上,合成新的圖片和視頻。

任海兵表示,目前流行的 AI摳圖算法都是基於深度學習的算法,相對於傳統算法,AI摳圖算法有兩個優點:一是摳圖精度更高,二是可以在GPU上並行計算,速度更快。

阿里文娛智能視頻摳圖技術

智能摳圖最直接用到的AI技術是圖像摳圖算法(image matting)。但爲了得到更好的摳圖效果,目前很多摳圖技術都採用多種算法結合的解決方案,還包括顯著性物體檢測、圖像語義分割和實例分割等算法。

相比圖像摳圖,視頻摳圖算法最大難點是時序一致性。“對於視頻摳圖結果,一幀幀看結果都很不錯,但是連在一起,邊緣地區就會有抖動,摳圖時序的一致性不夠好”,任海兵說。

視頻智能摳圖技術就是在圖像摳圖技術基礎之上,增加視頻物體分割等算法來保證視頻摳圖結果的時序一致性,達到“抖動小,更平滑”的分割效果。

先來感受一下阿里的視頻摳圖技術:

視頻1

視頻2

摳圖後,視頻中的人神情、動作非常生動、自然,人物的頭髮絲纖細可見,視頻主體人物和背景的銜接流暢,能夠準確區分,整個畫面很完整,傻傻分不清哪一個是摳圖後的,足以以假亂真了。如果對比上面那些粗糙的摳圖畫面,效果簡直“吊打”了。

值得一提的是,該視頻的前景和背景顏色比較接近,在這樣的情況下,要保證摳圖對象的完整性和局部細節的精確度,所需的技術難度較高,尤其對於頭髮絲、衣服褶皺等摳圖精細程度高的部分。

任海兵表示,視頻人物摳圖,從人物分割來看,算法模型需要學習人物的先驗知識,在前景/背景顏色比較接近和複雜紋理的情況下,人的先驗知識可以起到重要的作用,能保證摳圖對象的完整性。

摳圖對象的整體性主要依賴圖像高層語義特徵,局部細節的精確性側重圖像低層局部特徵。實際系統中二階段的摳圖方法比E2E的摳圖算法能夠達到更高的精度。二階段的摳圖方法中,第一階段是硬分割階段;第二階段是軟分割,首先要保證硬分割結果中對象的整體性和邊緣的準確性,然後在準確性的基礎上利用軟算法達到“毛髮畢現”的效果。因此,在第一階段中就需要確保對象的整體性和邊緣的準確性。

“爲了既保證對象的整體性,又能得到精確的局部細節,從算法角度,高層特徵和低層特徵需要很好的融合在一起",任海兵介紹。

目前很多圖像分割網絡,例如HRnet在這方面都處理得比較好。任海兵團隊參考HRnet、Deeplab V3+等語義分割網絡提出了對應解決方案,該方案目前在最重要的語義分割數據集Cityscape Test數據集上達到了84.3%的正確率。

智能視頻摳圖商用落地

目前,阿里文娛所採用的視頻摳圖解決方案均是針對文娛業務的應用場景定製化研發,其目的是從影視綜劇中摳出人物區域,進行視頻內容的二次生成和創作。

“我們會根據人物摳圖的特點,設計一些模塊,例如人體分割的自動評估模塊等”,任海兵表示,“我們採用的摳圖原始數據基本上都是來自優酷的影視綜劇,這是我們業務的場景,我們尤其看重古裝人物的分割,因爲古裝人物複雜的頭飾、服飾、武器等都是分割算法的難點”。目前,阿里已經建立了業界最大的視頻人物分割數據集,並將在今年阿里文娛的MEIDA AI算法大賽“高精度視頻人物分割賽道”中部分發布。

阿里文娛主要採用AI與人工結合的摳圖模式,利用AI算法爲人工賦能,大規模提高人工效能。例如在優酷商業化廣告項目中,全自動的視頻人物摳圖後接入人工審覈和交互式分割鏈路,也就是說,如果全自動的視頻人物摳圖的結果不合格,後續將由人工進行修補。

從算法的角度講,人物摳圖和物體摳圖並沒有本質的區別,算法原理、網絡框架基本上都是一樣的,只是數據不相同。因爲視頻中人是觀衆最感興趣的對象,所以阿里文娛更側重於影視綜劇中的人像摳圖。針對領域,任海兵團隊提出了視頻/圖像人物無監督和交互式摳圖算法。目前,阿里的算法已經具備商用落地的能力,正逐步應用於多個項目。

最近幾年,智能摳圖應用開始在工業領域逐步落地,在商品海報製作、視頻彈幕等場景運用,上述場景屬於簡單場景,圖像背景比較簡單或者對分割精度要求不高,主要採用人工+AI方式摳圖。

而影視綜劇視頻製作中給人物換背景等複雜場景,則要求更高的摳圖精度和更高的平滑性。這對硬分割和軟分割技術都提出了很高的要求。

爲了達到軟分割高度的平滑性,視頻軟分割(video matting)算法是非常重要的。“但在video matting領域,最近幾年學術界沒有明顯的進展。但我相信,隨着工業界需求越來越多,越來越多的研究人員會投身video matting領域,推動這個領域的發展”,任海兵表示。

他坦言,目前特別智能的摳圖算法,特別是視頻摳圖算法,還處於實驗室研究階段。算法特別複雜,需要大量的計算資源,且算法本身也不是特別成熟,在通用場景和複雜場景下達不到用戶的預期,因此只在某些特定的領域內針對具體場景進行優化,達到小範圍的商用。市面上,商用軟件中的摳圖算法,需要處理更加通用的場景,加之受計算資源限制,無法使用特別複雜的算法,還達不到特別的智能。

不過,最近兩年,深度學習在像素級分類任務上取得了較大的進展。智能摳圖相關的算法,例如圖像物體分割、視頻物體分割、Image Matting 等也取得了較大的進步。視頻摳圖在實現高度智能、大規模商用方面的潛力值得期待。

採訪嘉賓介紹

任海兵,計算機視覺專題專家阿里巴巴資深算法專家任海兵,從事視頻理解算法研究。擁有20多年計算機視覺從業經歷。在加入阿里之前,任海兵在三星中國技術院工作 了11 年,先後擔任計算機視覺和醫療圖像算法團隊負責人;在英特爾中國研究院工作了4年,從事機器人視覺感知研究工作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章