機器學習如何撬開千億視頻商業化大市場？

（上圖爲智能視頻圖像分析創業公司Viscovery CEO黃俊杰）

在線視頻正在迅速成長爲一個巨大的市場。根據今年6月發佈的思科Visual Networking Index（VNI）報告顯示，到2020年視頻將佔消費互聯網流量的82%，2015 年到 2020 年互聯網視頻監控流量將增長十倍、全球虛擬現實流量將增長61倍。在中國市場，根據市場調查公司艾瑞的預測，在線視頻市場將在2018年達近千億人民幣規模。

面對這樣一個視頻大市場，如何進行視頻的商業化轉化，是所有運營商和互聯網公司關注的焦點。在過去，視頻點播、貼片廣告和直播等是視頻商業化的主要形式。在人工智能時代，通過機器學習來實時捕捉和識別視頻中的圖形，從而更精準的匹配廣告和電商購物等新商業模式，成爲視頻商業化的下一個大趨勢，而這有賴於機器學習算法軟件和底層硬件的進步。

谷歌現任CEO Sundar Pichai曾說，機器學習是一條核心的轉型之路，我們將據此來重新思考一切。有一家叫作Viscovery的創業公司被谷歌評爲“成功和創新的企業”，從2011年開始就採用英特爾技術開發智能視頻探索平臺VDS，已經能夠實時捕捉和識別視頻中的圖像。

基於機器學習的智能視頻識別探索

Viscovery是一家集合美、中、臺高端人才的創業公司，自2011年以來就致力於研究圖像識別技術。Viscovery CEO黃俊杰表示，Viscovery的目標是通過大數據挖掘，自動解析視頻畫面內容，實現廣告精準匹配、視頻購物與社交、黃暴信息監測等多種應用。

Viscovery經過多年圖像識別技術研發以及大量客戶實踐，開發出的智能視頻探索平臺VDS，以獨有全方位視頻內容識別引擎Fitamos，可實現包括人臉（face）、圖片/商標（image）、文字（text）、聲音/對話/音樂（audio）、動作（motion）、物件（object）、場景（scene）等在內的多模態識別。

通過在視頻中識別上述七大廣告標的對象，VDS可自動化產生信息、標籤、商品等大量內容，克服了人工對視頻畫面與音頻打標籤的難題，打通識別對象分類與對象信息匹配的渠道，完成精準的廣告、電商、社交等匹配，從而提升廣告投放或電商交易收入，把視頻流量轉換成切實的營收。

簡單的說，VDS可同步分析一個1小時影片，自動分析出來影片裏的耳環、項鍊、筆記本、智能手機等物品，以及它們幾分幾秒出現在什麼樣的場合，這非常有助於廣告主或者視頻網站更精準找到更好的廣告投放機會點。“過去通過人工可能處理100部、1000部影片，採用們這個系統一下子就可以處理100萬部、1000萬部的視頻量，及時找出廣告投放點，實現更好的投放。” Viscovery公司CEO黃俊杰說。

VDS目前有三種方式：一種是以輕量級SaaS的方式提供給用戶，用戶上傳視頻後返回分析結果；一種是對有上百萬支視頻的互聯網大型公司，可直接把VDS系統部署到用戶自己的數據中心集羣裏；還有一種是如果需要利用Viscovery自建基於英特爾高性能計算集羣的機房，可以把視頻傳給Viscovery處理。

高性能計算提升機器學習

“我們碰到的挑戰比別人更多，原因在於我們要處理上億的圖像。2012、2013年之後，越來越多的人開始採用神經網絡來處理圖像，不管是Google LeNET、VGG等還是Caffe、Torch，需要在這麼多種架構下做深度學習實驗，動輒要一週、一個月的時間才知道實驗結果。”

黃俊杰介紹說，尤其是2015年的ImageNet比賽中，微軟最新的“深層殘差網絡”可以把圖像識別系統錯誤率降低到3.57%左右，低於人眼的5.1%錯誤率，這是重大突破。其中一個關鍵，就是多達152層的深度神經元網絡。一般來說，現在市面上常見的GPU，1U的機器上一個GPU卡大約能訓練出15層到20層左右的神經元網絡，因此難達到100層或200層的深度。

2016年6月，在ISC國際超級計算機大會上，英特爾推出了代號爲Knights Landing（KNL）的第二代至強融核處理器Xeon Phi，這系列最高達72核的x86 CPU也是首款可作爲獨立處理器的Xeon Phi CPU，這意味着可擺脫GPU而組成CPU-Only的高可擴展機器學習機羣。KNL還配備了16GB MCDRAM高帶寬內存可實現490GB/s的內存帶寬，以及6條DDR4內存插槽最高支持384GB內存。KNL處理器還是第一個支持新AVX512指令集的處理器，對於深度學習有極大的加速效果。

儘管也可以用GPU搭成集羣網絡，但每臺GPU服務器之間都要通過以太網或Infiniband技術連接，而英特爾研發的應用於高性能計算的Omni-Path高速互聯網絡帶寬高達100G，不論在運算量或是傳輸速度上都遠超之前的技術。Viscovery首席科學家陳彥呈博士強調，購買100臺GPU機器用於深度學習算法訓練可能只能快30倍，但是基於KNL的機器通過Omni-Path架構能實現線性增長，100臺可以快80、90倍以上。

黃俊杰表示：“如果只是做簡單小規模20層以內的神經元網絡學習，用GPU就可以了。當今天要挑戰上億的圖像資料，分辨上萬種物體，需要更快速訓練完之後爲企業提供服務的話，就需要選擇更爲完整的架構，包括計算、存儲、網絡傳輸三位一體，纔可以做更深度的機器學習。”陳彥呈更進一步介紹Viscovery還在研究千層神經元網絡，簡單理解就是把十個百層神經元網絡並行連接起來，同時識別一個視頻圖像的十個物體。

Viscovery首次嘗試構建CPU-Only的全新架構視頻深度學習平臺，在視頻流識別的能效上甚至比傳統方案提升高達3至6倍。黃俊杰表示，藉助軟硬件的協同整合，Viscovery能更全面、高效的服務視頻與直播平臺需求，將深度學習廣泛應用在商業環境之中。

在2016 Computex上，英特爾、廣達（Quanta）、Viscovery一起提供了一套完整的視頻分析解決方案，把英特爾至強E5和Phi處理器、廣達的系統設計以及Viscovery的軟件集成到一起，實現了包括服務器、算法庫和開源軟件等在內的可大規模部署的解決方案。

英特爾的機器學習“野心”

2016年4月18日英特爾機器學習戰略及業務拓展總監Joe Spisak的一篇博客中，引用了Sundar Pichai那句著名的論斷。當以谷歌爲代表的互聯網巨頭們都在用機器學習重新思考未來時，英特爾對於機器學習的策略也不是簡單一兩條芯片產品線的投入，而是有一個完整的戰略。

Joe Spisak表示，英特爾機器學習戰略包括底層的Intel至強E5和至強融核Phi系列、SSD固態硬盤、新一代內存技術、Omni-Path架構等以組成機器學習單節點或集羣。實際上Intel至強E5處理器、一代至強融核協處理器、二代至強融核處理器家族系列爲構建機器學習集羣提供了一個高性價比的混合X86服務器解決方案。

加上基於Lustre軟件的並行文件系統、MCDRAM高速集成內存、HPC Orchestrator安裝軟件等，Intel可擴展系統框架（SSF）把這些底層的計算、存儲和網絡硬件技術均衡的組織起來，可以適應從小集羣到超大TOP 500的超級計算機，以及各種計算密集型和數據密集型場景。

再往上是英特爾提供的一套高度優化的軟件和工具庫，能夠最大化的從底層硬件中獲得高性能。Intel Math Kernel Library數學內核庫是一套調優過的基礎數學算法庫，Intel Data Analytics Acceleration Library數據分析加速庫則提供了一套優化過的機器學習算法。這些庫都對硬件和ISA指令集架構進行了抽象，屏蔽了底層硬件的複雜性，簡化了編程和代碼。

英特爾還積極與機器學習相關的開源項目集成，並把代碼貢獻給開源社區。這包括來自UC-Berkeley的Caffe、Montreal大學的Theano、Facebook和Twitter用的Torch7、微軟的CNTK以及谷歌的Tensor Flow等。在更高的層面，英特爾還通過開源的Trusted Analytics Platform（TAP）可信計算平臺，幫助企業和開發者加速採用機器學習。TAP提供了從大數據基礎設施和集羣管理工具，到模型開發和訓練以及應用開發及部署等各類資源。

在開發工具方面，Intel Parallel Studio XE工具套件簡化了代碼的設計、開發、調試和優化，利用並行處理來提高應用程序的性能。利用兼容的Intel處理器和協處理器，可以更高效地提高C++和Fortran應用程序性能。

實際上對於開發者來說，英特爾統一架構的最大好處是單一的編程模型和編程語言，陳彥呈表示針對GPU加速代碼無法在CPU上執行，所以傳統的深度學習解決方案常常是GPU滿載但是CPU閒置的狀態。英特爾KNL可以作爲協處理器的形式，在一個主CPU旁邊插多個KNL，那麼同一代碼不需要重新編譯就可以直接分散在不同的運算節點上運算。相比之下，其實GPU的單價也不低，還需要特殊的程序語言（CUDA）做處理。

最近，Viscovery與江蘇衛視和傲播合作了“我們戰鬥吧”，爲觀看這部秀提供了一個APP。用該APP觀看的時候，在任何一個時間點想要知道王凱、蕭敬騰、井柏然等身上穿的衣服、頭上戴的帽子或腳上穿的鞋，只要一點馬上就可以知道在哪裏買，把視頻變成了互動的情景。“這是在過去沒有辦法大規模實現的場景”，黃俊杰說。

在未來IoT的世界裏，智能視頻分析還將大有可爲。隨着機器學習算法、軟件和硬件的進步，機器學習無疑將成爲千億視頻市場最佳的商業化策略。（文/寧川，《雲科技時代》微信號：CloudTechTime）

機器學習如何撬開千億視頻商業化大市場？

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

中外程序員到底有啥區別？

Python數據分析與挖掘實戰（5章）

python包：pandas

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

長江商學院許成鋼：人工智能從根本上是經濟學模型

鈦資本研究院：保險科技行業現狀及趨勢分析

2019，數據庫行業迎50年第二次鉅變

萬國數據的高增長，說明混合雲數據中心需求旺盛

從自主可控金融級數據庫看騰訊“智能+”技術中臺之路

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結