利用人工智能提升足球直播效果

摘要:

人工智能技術代表着未來無限的可能性,已經在很多領域帶來巨大的衝擊。在足球直播這一領域,版權方需要提供更多更優質的內容以應對日益增長的多元化需求,因此急需提高運營效率的新方式。

具有合適的機器學習引擎的人工智能已經可以模仿一些人類的創造性行爲,克服了自動化的一些侷限性,能夠高效高速處理高級複雜的任務。本文參考自N. Déal和J. Vounckx於IBC2018刊登的文章:

"AI FOR BETTER STORYTELLING IN LIVE FOOTBALL"

選取了一些具體的應用,如輔助取景,機位選擇,相機標定以及機器相機自動轉向等,對人工智能輔助體育直播的潛在效用進行了介紹。

簡介

現代科技養刁了球迷們的胃口,讓他們在觀賞熱衷的足球賽事時開始追求身臨其境的沉浸感,能夠沉浸在比賽中,比以往任何時候都接近球員。聯賽,球隊與個人體育賽事也意識到了一點,力求用最新科技滿足球迷們的需求。

然而,這個需求需要在預算緊張的情況下實現——廣播電視公司希望在有更高的節目製作效率的同時,爲觀衆提供更好的視聽體驗,在這個背景之下,人工智能逐步走進了直播行業。人工智能能夠模擬人類操作員具有創造力的行爲,爲電視直播打開了一扇新的大門。

足球場上的AI

人工智能的吸引力

近年來隨着神經網絡技術——尤其是深層神經網絡實時執行能力的進步,人工智能已經打開了一扇帶有創造力的門。它模仿了人類對藝術的感知,並擁有了對不可預見事件的預測能力,對生活生產中的許多問題能有很好的處理。

與傳統的編程方法相比,神經網絡技術並不直接模擬過程運算解決問題,而是通過學習大量的例子對一個問題進行判斷。人類亦是如此,人類通過各種事例進行學習,得到新的經驗再反過來改變自己之後的行爲,在不斷的試錯中提高,直至成爲這個問題上的專家。

在如今的早期階段,我們難以預測人工智能會如何對未來賽事直播造成影響,但人類的監督必將貫穿整個發展流程,事實上,人類操作者的創造力與靈活性仍將是現場製作成功的關鍵,機器學習過程將始終需要人類的輸入。

因此,我們對未來如此設想:人工智能可以作爲一個促成者(enabler)或者助手,來完成現場製作中的某些任務,並提供更智能的工作流程,讓製作團隊有更多時間來完成更有創意的編排。

人工智能作爲虛擬生產助理

沒有人的參與,一場賽事轉播無法引人入勝,畢竟整場轉播需要人的創造力與情商參與才能將精彩呈現給觀衆。機器與人類不同的是,它們不會感到無聊,也不需要休息來保持效率。在某些情況下,人類在執行任務時可能會更慢、更無規律,而訓練好的人工智能可以持續高效、可靠而又穩定地執行多項任務,這一點人類時常無法做到。這便是讓人工智能參與一場直播的意義所在。

論文作者提出將人工智能作爲內置虛擬生產助手的概念。操作者和導演可以利用一系列實時引擎(分析引擎、A/V(視頻與音頻)處理引擎和內容生成引擎)來輔助執行任務。

分析引擎會實時分析在製作過程中生成的許多音頻、視頻以及其他數據饋送(data feed),也會分析來自其他渠道(如社交媒體或檔案)的數據。分析結果是一組元數據(metadata),包含發生的事件(如紅牌,進球等),視頻中物體的指示,或者圖像中動作的熱度的指示。這種元數據會在匹配期間自動生成日誌信息。這些元數據既可以存儲起來供以後處理,也可以供給其他引擎實時使用。

A/V處理引擎可利用元數據創建可用於製作的音頻和視頻材料。舉一個簡單的例子,它可以在視頻中插入圖像信息(如展示失誤,顯示球員的生物特徵數據,與繪製越位線等等),生成的視聽內容可用於後續的剪輯播出。

內容生成引擎則會實時分析元數據,並自動生成內容。當製作者希望自動高亮部分內容,或者自動裁剪圖像時,內容生成引擎都會通過指令來生成視聽內容。這些實際創建視聽饋送的指令將由A/V處理引擎處理。

圖 1

助理系統有兩種模式。第一種是自動模式,操作員直接收到人工智能提議的最佳內容(如提醒回放或控制攝像機轉向等)。這種模式大量使用了內容生成引擎,讓導演們對複雜的製作過程能有更快的反應,畢竟人工智能已經將它所認爲最好的內容直接給出。最極端的例子就是整場賽事轉播全自動製作,儘管這違背了人必須參與的原則,但全自動製作有助於冷門比賽的播出——例如青年賽與地方賽——傳統方法下預算成本會太高,並不可行。

第二種是操作者控制模式,人工智能通過自然語音處理器收到操作者和導演提出的要求,比如“將攝像機視角轉向進球”、“給這段畫面一個慢動作”或“回放最後一次進球”等。然後,這些請求由自然語音處理器轉換爲每個人工智能引擎的API指令,然後生成所需的視聽輸出。

預期的應用領域

用於實時數據分析與部分任務自動化的人工智能:

  • 記錄與索引
  • 相機標定
  • 鏡頭追蹤球員與目標
  • 在原有資料中智能搜索(球員的)資料,在節目放送中整合
  • 解釋與預測比賽局勢

爲視頻片段按需求放送做先期準備的人工智能:

  • 自動確定攝像機機位與拍攝角度,例如“給我一個梅西的視角”
  • 對部分視頻片段自動選擇重放與強調,例如“給我回放上一次的失誤”

爲高質量視頻輸出做準備的人工智能:

  • 在正確的位置上覆蓋指示圖像,完成對球場的標定
  • 爲普通相機拍攝的影像生成慢動作鏡頭
  • 圖像着色
  • 通過原圖與插值圖的重組形成額外的圖像
  • 機器人攝影機的自動轉向

除了上述應用領域之外,人工智能製作助理系統的整合也會使足球直播受益。

  • 人工智能剪輯與重播鏡頭:

即時回放是當今賽事轉播中很普遍的一個方法,但是即時回放卻存在着一個問題——回放播出時切掉直播流,影響收視效果。爲了解決這個問題,人工智能系統可以自動分屏,同時將直播流與回放片段推送給觀衆,觀衆可以自己選擇想觀看的部分。直播視頻將會一直保留在屏幕,方便觀衆在精彩片段再次出現的時候切換回直播。

圖 2

圖2是一個iPad觀看球賽的演示,屏幕下方的分屏顯示回放,但用戶也可以在回放與直播之間自由切換,視頻也會隨着屏幕自動匹配。

  • 人工智能幫助使用固定攝像機進行直播:

有了人工智能,賽事場地中大量移動高清攝像頭可以被固定的8K攝像頭所取代,這些攝像頭被戰略性地放置在整個足球場各個位置,所需的設備大大減少。訓練好的人工智能能檢測並提取球員的動作,將相機產生的數據流傳輸到數據中心以便直播過程中實時處理、儲存或使用。

人工智能輔助轉播

輔助取景Assisted framing

輔助取景利用人工智能,將高清視頻壓縮到更小的長寬比,以適應智能手機或者其他屏幕的需求。畢竟在社交媒體發文或者傳統媒體發佈新聞的視頻規格都會有不同。

傳統的方法如中心對齊裁剪或目標檢測都有其侷限性——原始圖像的中間很少出現動作,如果採用中心對齊裁剪,大部分動作可能丟失;目標檢測似乎更好,但是會出現足球被球員擋住,或有其他物體被誤認爲球的情況,更何況,足球並不總是圖像中最有趣的部分,其他的部分比如球員,也許更加吸引觀衆的眼球。

人工智能可以提取圖像中的關鍵元素,在人類指出比賽過程中的最佳圖像中心之後,人工智能會從中學習,並且將其更新到網絡之中。

圖 3

技術層面上來說,輔助取景基於一系列實時引擎(見圖表3)。第一層引擎基於能夠識別視頻中不同圖像動作焦點的神經網絡,它會返回視頻序列中各個圖像觀衆最可能感興趣的區域。這些區域由一組值來標識,包括它所在的當前圖像(第i張圖)與其對應的位置

。這些值傳到第二層實時引擎,第二層引擎對其進行時域濾波。時域濾波確保感興趣區域能夠平滑變化,防止輸出的視頻產生畫面跳動。爲了實現過濾,實時引擎利用前時序圖像中的觀衆感興趣的區域,也就是

,進行處理。最後,實時視頻處理引擎從原始圖像中將所需的觀衆最可能感興趣的區域剪輯出來,將新的序列轉發到剪輯製作的後續階段。

圖 4

最終的剪輯結果如圖4。

輔助相機選擇

任何一場重要球賽,都會安排多機位拍攝以確保將所有的動作拍攝下來,後續過程中導演再決定將哪一個角度的鏡頭呈現在電視上(如圖5)。輔助相機選擇中,人工智能會自行選擇它認爲最好的或最合適的相機角度。爲了評價人工智能的效果,研究者安排人類給同一比賽中的三個不同剪輯打分——一個剪輯是人工剪輯,一個是通過人工智能的剪輯,還有一個則是半隨機生成的剪輯。結果表明,除了在特定的複雜場景之外,機器算法剪輯的水平與人類導演的水平基本相同。

圖 5

輔助相機標定camera calibration

人工智能可以根據視頻圖像對足球場地實時進行相機標定。它會計算視頻中圖像與球場佈局之間的變換,可以先在矩形2D視圖中繪製場地線條與其他的畫面元素,再以正確的視角將這些線條和元素投射到真實的圖像中。

圖 6

利用神經網絡,我們可以計算出從場內攝像機中看到的2D球場的相貌,並將2D的視角與實際圖像相關聯,其他的元素可以自動加入其中。這最初應用在越位線的標定上。輔助系統可以向操作者顯示球員越位的確切位置,並將其呈現在相機的視頻輸出中。

自動相機標定是基於對相機拍攝圖像的分析。幾個人工智能引擎相互串聯之後,通過識別足球場上的參照標記,將真實的攝像映射到數學模型上。經過映射,我們可以提取到識別相機標定的參數,該參數也標明瞭(帶有失真和光學透視的)相機圖像與真實世界之間的空間轉換。基於這些標定參數,人工智能通過兩者之間的座標轉換,將需要添加的元素(如前述的越位線)附加到視頻圖像上。

輔助機器攝像轉向

機器學習的方法爲人工智能賦予了預測能力,人工智能可以預測球員的動作,並及時移動攝像頭方向,以便拍到最精彩的畫面。下圖顯示了系統從能覆蓋整個球場的廣角攝像機分析場景檢測相關信息的方法。人工智能模塊利用探查到的信息,發佈P/T/Z命令以控制所有的機器攝像機,將攝像機轉向至效果更好的方向。

圖 7

自動機器攝像機轉向依靠幾個人工智能引擎實現。第一部分的組件會在製作開始時或相機參考位置變動時自動校正相機,使得各個攝像機的位置與由相機拍攝圖像中的位置關聯起來。校準與標定是通過對相機圖像分析完成的。

第二部分的組件負責對各個機器攝像機進行實時操控。人工智能引擎決定每個相機應該拍攝球場哪個區域,其輸入是覆蓋全場的廣角攝像機的圖像。通過前一過程的標定各個機位已經確定,因此人工智能通過判斷直接發出具體的P/T/Z指令,控制機器攝像機的轉向。機器攝像機拍攝的圖像將會用常規傳統的方法處理,而不用人工智能引擎再處理。

覆蓋全場的攝像機與機器攝像機之間的時延是一個關鍵問題,經過時延,機器攝像機纔會轉向人工智能引擎所指示的最佳拍攝視角。如果延遲過高,機器攝像機難以實現動作跟蹤,也難以拍攝到理想的位置。研究人員投入了大量精力,優化數據生成與數據傳輸速度,也改良了算法,才起到較好的效果。

輔助慢鏡頭

賽事轉播中,慢動作回放很有看點,它能讓觀衆更好地欣賞運動員的技巧,幫助觀衆更好地理解球場上發生的情況。通過能拍攝高清畫質慢動作的超運動攝像機super motion camera的拍攝畫面不僅引人入勝,也使得轉播過程更加精彩。可由於超級運動攝像機的昂貴,除了頂級賽事之外的大多數賽事只能望塵莫及。

人工智能讓從普通攝像機的視頻中獲取高清慢動作圖像成爲了可能。通過訓練神經網絡以對視頻插值,將虛擬的中間幀插入到原有的視頻序列中,就可以獲得更高的幀率。

圖 8

上圖展示了人工智能生成的慢動作與通過重複幀方式創建的慢動作的比較。通過插幀創建的慢動作視頻序列明顯更流暢,更連貫。

這種方法會讓沒有財力部署超級運動攝像機的小規模製作受益。此外,它還可以創建幀率更高(ultra motion, hyper motion)的視頻。它還可以從現有的影片上創造這樣的慢鏡頭,並將它們整合到直播中,爲直播帶來更好的體驗。

結語

在廣播電視行業,人工智能並不是爲了用機器取代人工作,而是幫助人類更快更高效地完成工作。基於深度學習的方法,人工智能能自動化完成部分工作,能分析視頻,能實時完成諸如我們正文所說的輔助取景,輔助相機選擇等工作以提供素材,這些任務將會對從業者的工作產生很大幫助。我們期待未來人工智能能被用於賽事轉播之中,讓從業者能更好應對日益複雜的直播工作,幫助他們創造更好的節目製作——也讓觀衆更加忠實投入到觀看直播之中。

參考文獻

1. Grotticelli M., April 2018, “At NAB 2018 artificial intelligence touted as super-charged video assistant”, thebroadcastbridge.com.

2. Magera F., Vounckx J., April 2018, “How AI will take productivity in the broadcast industry to the next level”, NAB 2018 technical paper.

3. Hastie T., Tibshirani R., Friedman J., 2009, “Overview of Supervised Learning”. In: The Elements of Statistical Learning. Springer Series in Statistics. Springer, New York, NY

4. Krizhevsky A., 2009, “Learning Multiple Layers of Features from Tiny Images”

5. Sacchelli D., February 2018, “How AI will change the broadcasting and entertainment landscape”, itproportal.com

6. Clevinger D., September 2017, “How AI will disrupt sports entertainment networks”, venturebeat.com

7. Alamares M., October 2017. “AI will soon bring huge changes to live video production”, streamingmedia.com

8. Hartley R., Zisserman A., 2003. “Multiple View Geometry in Computer Vision”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章