人工智能AI技術如何在視頻領域應用落地？

衆所周知，全民視頻時代已經來臨，用戶的注意力已經從傳統的文字、圖片向視頻轉移，相信絕大部分用戶的手機中都會有幾個點播、直播、短視頻的APP。據網絡公開數據報告顯示，互聯網流量70%以上來自視頻，未來這個數據將超過90%。

而在人工智能時代，AI技術是如何在各行業和領域真正的發揮應用和商業價值，帶來產業變革纔是關鍵。在3月28日深圳雲棲大會的人工智能專場中，阿里雲視頻服務技術專家鄒娟將帶領大家探索熟悉的視頻場景中，AI技術如何應用落地，解決實際業務場景中的問題。

縱觀整個視頻生命週期，包括視頻採集、視頻的生產製作、視頻播出和被廣大的用戶所體驗這幾個環節。實際上在這個過程中，整個視頻行業發生了很大的變化，在每一個階段都從非常專業的參與者轉向大衆普適的參與。

從採集階段，最開始用專業的攝像機、錄像機進行視頻採集，轉向如今的每個人都是自媒體產生者，用手機來拍攝。在製作階段，從重量級的非線性編輯軟件，到現在短視頻APP都標配的特效、濾鏡、美顏，都能夠在手機端進行基本的視頻製作。在播出領域，最開始電視臺必須得有一個節目單，到現在用戶可以在網站上按需播放點播視頻，用手機實現個性化的搜索和觀看。在體驗這一環，用戶從最原始的有線電視同軸電纜單項傳輸的觀看，到現在我們可以去交互、評論、點贊、彈幕等等互動。所以，我們可以看出，從整個視頻生命週期中，參與者是發生了巨大的變化，加入視頻領域的應用也越來越多。

從下圖可以看出，視頻和AI的結合已經貫穿了視頻生命週期的每一個階段。

那麼，AI能爲視頻行業帶來什麼呢？

第一，提升生產效率
AI和採集生產環節結合，是能夠有效提高視頻生產製作的效率的。傳統的編輯是人來做的，當AI和視頻採集生產環節結合，我們可以引入智能編輯技術，快速生產視頻。天下武功，唯快不破，應用在視頻領域也是一樣的。設想我們很快的生產視頻，第一時間發佈到網上，就有機會獲得更多的流量。
第二，規避監管風險
在視頻中引入人工智能審核技術，可以縮短視頻發佈週期，減少了人工審覈的干預，並且可以更高效、準確的規避監管風險。
第三，釋放人力降低成本
因爲前兩個階段中，機器和算法做了很多替代人的操作，所以釋放人力，並且可以帶來成本的降低。

基於達摩院的AI算法，結合視頻雲團隊多年在音視頻技術領域的積累，阿里雲構建了視頻AI能力——視網膜，並將產品功能劃分爲審覈、識別、理解、搜索四個模塊。下圖中的能力，其實是視頻雲AI服務的最小單元的基礎能力，實際上可以基於這些能力進行組合，像搭積木一樣，滲透在視頻各個場景當中，形成各類匹配業務的解決方案。

接下來鄒娟老師介紹到，採集生產、分發播出、媒資管理是視頻生產領域的三大場景，在這三個場景中，阿里雲和客戶一起成長，深入到客戶的實際業務場景中，並結合自身產品規劃，推出了視頻AI的解決方案。

在採集生產的場景中，解決方案支持視頻拍攝、字幕、剪輯合成與視頻拆分；在視頻播出場景，除了常見的視頻審覈，還有逐漸被大衆認知的版權檢測，以及在實時播出的過程中對視頻中目標進行識別檢測；在媒資管理場景中，最經典的是智能編目與智能封面，解決方案中還有基於指紋的去重和視頻之間挖掘和整理的能力。
我們可以看到，通過基礎AI能力的組合，和結合客戶的實際業務場景，阿里雲已經提供了一些具體的解決方案，下面選取了其中一些典型場景來介紹具體落地。

第一，視頻採集場景——視頻萌拍

市場上非常流行的短視頻和拍照的APP中，基本都提供了基於人臉識別的技術的貼紙功能。很多客戶希望能擁有豐富的拍攝效果，阿里雲在短視頻智能端的解決方案上就提供了視頻實時的處理功能，內置人臉識別與動態貼紙庫，未來還可以付費升級大眼、瘦臉等高級功能。

第二，視頻生產製作場景——精彩集錦

這個是很多客戶都擁有的業務場景，可以利用的AI技術特別多。下圖左側的AI技術結合雲端視頻剪輯能力，就可以做出很多有想象空間的事情。比如將人物出現的時間線連接起來，自動生成人物集錦；再比如經典的體育賽事精彩瞬間，前期的素材整理的工作可以通過AI來自動處理；還有專題製作這個領域應用也十分廣泛，比如去年江南的大雪，廣電媒體從業者希望能快速的從素材庫中找到與雪景相關的視頻來生成一個專題視頻，利用AI能力，其實就可以根據場景的識別，提取雪景在各個視頻當中的位置片段，搭配雲端剪輯能力，比較輕鬆將視頻製作出來；同時，影視劇劇集的片花也可以利用智能摘要、智能GIF來形成，一些視頻片段可以基於指紋和多模態技術去實現。

第三，視頻生產製作場景——ET字幕

還有一個需求量非常大的業務場景是ET字幕，實際上它是基於AI的自動字幕進行新視頻創造的功能。首先，傳統字幕生產是非常複雜的，首先得有一個團隊去把語音轉成文字，把時間線拍下來，在多語種情況下，可能還會有翻譯團隊介入，再把字幕導入到本地編輯軟件進行合成。整個過程非常耗費時間和人力。如果利用AI技術，首先我們可以把語音生成文本，文本直接存在對應的有時間，我們也可以將文本翻譯成所需的語種。同時，通過雲剪輯的工具，對語音識別的結果和人工的結果進行check，人工干預量也遠遠低於傳統的翻譯量。這項技術除了可以應用於離線視頻之外，也可以運用於會議直播的實時字幕，基於導播臺切換多路流的時候，每一路流都可以自動生成字幕，產生互動的效果。ET字幕應用於視頻生產製作場景，可以方便用戶進行二次視頻創作。

第四，視頻生產製作場景——智能拆條

智能拆條有兩個好處，第一是加速新聞短視頻的發佈，第二是把原始的長段視頻拆成各個小片段，進入素材庫從而豐富媒資系統，更方便製作出新的視頻來。

智能拆條是基於AI的多模態信息進行拆條，目前是支持標準新聞形式，非標準的場景可以快速通過補充數據集快速訓練來實現。

第五，視頻分發播出場景——內容審覈

進入到視頻分發和播出領域，隨着國家對於互聯網視頻的監管的加強，內容審覈已經成爲非常強烈的需求。最開始的只是鑑黃，到後面的黃、反、暴、恐、都要去鑑別，利用AI技術可以非常快速的鑑別出視頻當中不合規的內容。

第六，媒資管理場景——智能編目

我們先來看下傳統編目的效率，在電視臺做深度編目，一個小時的視頻大約需要二到四個小時完成編目，這個視頻生產速度目前已經無法達到互聯網的要求了。與傳統的編目相比，AI技術可以從視頻自動分類、視頻自動打標、人物識別、語音和OCR識別等，自動生成源數據信息，進入媒資庫，結合NLP、分詞、語義分析、詞性過濾等場景，進入到後續的搜索和推薦的領域。整個過程靠算法驅動，不需要人力，相對於人工處理，AI技術能更徹底地對視頻進行結構化處理，標註出每個獨立標籤的時間線。

通過智能編目的方案組合，可以快速生成最基礎的源數據，方便媒資管理。

那麼用戶如何接入視頻AI服務呢？

分爲三個步驟，首先，用戶需要根據自身的業務場景來選擇合適的產品進行開通，其次，根據實際需求來選擇開通視頻AI服務，支持自動處理和手動發起AI任務兩種形式，最後是獲取AI處理結果，接收AI結果回調或主動查詢AI結果。

在分享的最後，鄒娟老師爲現場觀衆演示了整個視網膜系統，用戶上傳了視頻，可以進行快速的AI處理。阿里雲視頻AI體驗館：https://retina.aliyun.com