黑夜給了我黑色的眼睛,我卻用它研究CV

編者按:計算機視覺(Computer Vision)領域歷史悠久,業界對此一直都不缺乏想象。當圖像和視頻總量每年以數十倍的速度增長,增長到人們有一天再也無法通過文字整理和檢索這些信息時,計算機視覺技術或許會和當年的關鍵字搜索技術一樣,成爲救世主。本文來自美國計算機視覺公司創始人Orbeus劉天強(微博@劉天強Orbeus)投稿,從究竟什麼是計算機視覺技術?它的侷限性何在?它應用在實際場景中的表現如何?它未來又會有多大的發展空間?四個方面分享了他關於Computer Vision的思考。

2014 年的新年鐘聲剛敲響不久,CES 的喧囂也纔剛剛落下帷幕,人們還沒有從炫酷的智能手錶、無人駕駛汽車,以及虛擬現實頭戴那不真實的硬件世界裏清醒過來,兩起發生在計算機視覺領域的收購卻在新年伊始短短兩週裏悄然發生着,說是不起眼,其實已經是該領域一年多來的第八起收購案了。

這兩起收購,一起是剛剛發生的 QualComm 收購圖像識別公司Kooaba,另外一起是一週以前Pinterest收購物體識別公司VisualGraph。而近兩年該領域的收購記錄可以列出長長的一串名單,從雅虎收購深度學習公司LookFlow和圖像標註公司IQEngine,到 Google 收購移動圖像識別公司Viewdle和深度學習公司DNNResearch,再到更早先的 Dropbox 收購圖像標註公司 Anchovi Labs 以及 Facebook 收購人臉識別公司Face.com

除了舉不完的收購案以外,該領域近一年的人事變動也風風火火,從 Google 挖來多倫多大學深度學習界的大牛 Geoffrey Hinton,到 Facebook 成立人工智能研究院並邀請紐約大學名宿 Yann LeCun 擔任院長,再到百度成立深度學習研究院並邀請 NEC 資深科學家餘凱加盟,後者在近期甚至推出了對機器學習方面的人纔開出百萬年薪的“少帥計劃”,業界對於計算機視覺界尖端人才需求不可謂不熱切。

計算機視覺領域是個歷史悠久的領域,業界對該領域一直都不缺乏想象。從三菱 Merl 實驗室推出的第一個商用人臉識別系統,到數年前 PittPatt 在茫茫人海中搜索到一個不起眼的羣衆,再到近年亮瞎小夥伴們雙眼的 MIT 媒體實驗室廣泛應用視覺技術的新一代人機交互界面 Six Sense。

然而,一些疑問一直留存在人們心目中:計算機視覺領域是一個看上去很美的領域,爲什麼一直以來沒有誕生過巨頭?而又是什麼原因,導致近兩年該領域人潮流動,收購頻發?另外,這樣一門艱深的技術,在業界又扮演着什麼樣的角色呢?

1. 什麼是計算機視覺技術

如果需要妥善回答這些問題,需要先解釋一下計算機視覺技術是做什麼的。雖然廣義上包含了非可見光的圖譜分析、熱傳感圖像分析等領域,但狹義來講就是大家都知道的圖像和視頻分析:在沒有文字或其他信息(例如訪問圖像的用戶信息等)的輔助下,僅根據圖片像素信息分析出圖像的語義。

例如,找出看 Youtube 視頻下面的註解然後告訴你視頻裏面有鳥叔就不屬於計算機視覺,但識別出海報照片的內容並告知你明天 MIT 有 LadyGaga 的講座就屬於計算機視覺。

2. 計算機視覺技術的限制是最需要考慮的問題

這類技術的優點主要在於,其可供分析的對象的存在範圍十分廣泛。今日滿世界氾濫的圖像和視頻,仍然以每年十倍於上一年的速度增長,因此圖像視頻的分析整理檢索,一定是未來一個巨大的產業。然而,該技術的限制,纔是最需要考慮的問題。

其主要限制有三:

其一,在需要最精確結果的領域,往往有比視覺技術更好的替代方案:例如檢測車輛的行駛,自動分析交通燈拍攝的錄像顯然不如在馬路上安裝傳感器來的精準,尤其是遇到下雨天或者車輛角度較偏的時候。

其二,往往需要大量的訓練數據導致無法滿足長尾需求:例如需要識別不同的貓種,從美短到蘇格蘭折耳,再從梵貓到俄羅斯藍貓,如果定義可識別物體種類的人不是貓咪專家,便很難想到相關知識,更不用說去建立對應的數據集,況且世上能夠識別的物體和概念數不勝數,可以細分到不能再細分,根本無法建立起一個萬金油式的數據庫滿足所有人的識別需求。

其三,理論可行,工程昂貴:拿最近很火的深度學習舉例,早在人工神經網絡統治的時代就已經被提出,多年因爲硬件軟件的發展限制而被束之高閣,直到近幾年硬盤讀寫速度加快、GPU 技術的進步以及大規模分佈式計算的發展,使得原先需要幾個月的訓練可縮短至數日完成,這纔開始登大雅之堂。

總結起來,計算機視覺技術的缺點在於不擅長做精準的定量分析,例如從照片看人年齡的問題,計算機能夠估計出這個人看起來大約像 23 歲,是一個年輕人,但不會知道這個人實際年齡正好是 25 歲。但其優點也很明顯,概括起來是:應用範圍廣、需求多並適合做定性分析。

3. 計算機視覺技術的實際應用尚處於起步階段

鑑於上文所談到的三點侷限性,在定量分析領域,計算機視覺技術常常只充當輔助角色。例如,手機解鎖這個應用雖然目前也應用了計算機視覺技術(例如人臉解鎖和指紋解鎖),但傳統輸密碼的方式也並沒有被取代。另一個例子是銀行 ATM 支票掃描的 OCR 模塊,儘管這個技術早在兩年前在學界就已經有了速度夠快、性能夠優越的算法,但 ATM 仍然會提供手工輸入支票數額的功能。

在這些領域當中,計算機視覺都扮演着“Good to have”,卻遠不是“Neccessary to have”的角色,所以纔會讓大量以視覺技術作爲賣點的公司覺得疲憊:雖然技術難度大,但是可被替換性強甚至客戶都會覺得這個技術可有可無,因此綜合考慮性價比較低,固然然技術酷炫,授權的價錢卻肯定不會高,在國內甚至到了大公司只願意免費使用但都不願意付錢的程度。一言以蔽之,計算機視覺技術“叫好不叫座”。

雖然情況並不樂觀,但並非所有的領域裏,計算機視覺都只能充當配角。該技術具有“大量數據定性分析”的特點,所以似乎天生是爲下面三類問題而生:一是搜索,二是視頻分析,三是定性分析。但目前即便是這三個主場,計算機視覺技術的生存空間也十分有限。

先提搜索。搜索是一個對於召回率(Recall)的要求要高於準確率(Accuracy)的應用,也就是說,用戶不期望搜索結果每一個都是他們想要的,只要排名靠前的結果裏多數是對的就行,加之每天經手搜索引擎數據量之巨,就不難理解爲什麼 Google 和百度對於計算機視覺領域一直保持業界最敏感嗅覺了。

無論是早先的 Google Image Search、Google Gaggle,還是最新推出的百度識圖,其概念在於解決“當你不知道該如何用文字和詞語描述一件物體時,還能夠進行搜索”,例如你知道一個女優長相卻不知姓名和其他任何信息,然而你卻希望看到她更多的圖片甚至她的信息,再比如你想知道路人的一款 Prada 包在哪兒買卻不知款式。

另一個方面是,搜索引擎原始數據量之大保證了提供給用戶的返回結果中有他們需要的結果的概率很大,因此即使有若干不準確的結果,但並不影響用戶體驗。這無疑是個完美的領域,然而巨頭林立讓創業者直接從事相關業務,很難殺出一條血路。

再說說視頻分析領域。該領域最重要的特點是數據量大(單個視頻輕鬆達到上萬張圖片),而且相比搜索,數據相關性更強,可以用前後幀分析的結果做數據平滑,理論上能夠把分析的精度做得比圖像更高,因此也是一個非常適合計算機視覺技術大展拳腳的領域。然而在這個領域,雖然無數基於文本和用戶數據分析的公司如雨後春筍,但以計算機視覺技術爲本的成功公司卻鮮有所聞,更不用提出現巨頭。

從產品的角度考慮,需要視頻分析功能的用戶基本是一些擁有大量視頻的公司,這就造成了以視頻分析作爲主產品的公司往往需要依附於其他公司而生,如 Youtube、Hulu、Youku 等,然而這些視頻公司多數迄今爲止都並沒有盈利,而同時又沒有證據證明引入計算機視覺技術的視頻分析能夠幫助他們增加多少收入。

此外,儘管集羣和並行計算技術發展迅速,然而理論上可行的視頻分析,在面對海量視頻的時候,還是需要消耗昂貴的計算資源成本。因此對於視頻所有者來講,由於很難估計採用計算機視覺技術來分析視頻的淨收益,因此對於加入視頻內容分析就成了他們較低優先級、採取觀望態度的任務,也缺乏消費的慾望。

最後談談用計算機視覺技術對某些垂直領域進行定性分析。這類需求非常多樣:商家希望統計用戶對商品的關注度,廣告公司尋找目標人羣,互聯網或者媒體公司做戰略決策時需要多媒體的統計信息,等等。

舉一個多年前很多人就已經試圖實現的點子:在商場裝多個攝像頭做人臉識別和跟蹤,用以統計類似於在某些貨架前停留時間比較長的人羣屬性,例如男女年齡段和表情等。另一個例子是帶着攝像頭的廣告牌,可以自動識別牌子前的人性別年齡等並且呈現對應的廣告,例如長得不好看的女生會看到整形醫院的廣告,貌似屌絲的文弱男生會看到壯陽藥的廣告等。想法非常 sexy,但迄今爲止爲什麼還沒有大紅大紫的公司出現呢?

從商業的角度看,主要還是目標客戶的購買慾望不強。例如商家統計數據的例子,買家可以有商店商家或者監控解決方案商,對店家來講,也許去查商品生產商的財報或者行業報告比這小範圍的統計信息更全面更準確,對監控解決方案商來講,主營業務是安防和監控,其客戶不會爲了專門統計攝像頭影像信息專門去購買一套昂貴的解決方案。

再看廣告公司那個例子,取決於尋找他們的商戶希望播放什麼樣的廣告,不太可能對全範圍的客戶都能有對應的廣告,因此即使廣告牌檢測到眼前是一個長得醜的女士,出來的廣告也很可能不是整形醫院,還可能是壯陽藥,因爲很可能根本沒有整形醫院找他們做廣告。

最後一個 case 是互聯網或者媒體公司,傳統媒體往往談判週期長,而且對內容的版權十分謹慎,通常從技術供應商起家的小公司,沒等到合作就已經撐不下去了,如果自己爬內容的話,則會有面對版權訴訟的風險,而手握巨量數據的互聯網巨頭,基本會採取收購或者內置團隊自主研發,不太傾向使用第三方的技術授權。

我們不能斷言,在垂直領域中,任何領域都沒有剛需,但至少在現階段,以計算機視覺爲本的技術公司,都還處在艱難的摸索階段。

4. 計算機視覺技術領域的巨大空間不可否認

儘管目前計算機視覺技術對工業界的探索還處於剛起步的階段,但仍不可否認該領域巨大空間的存在。就拿互聯網的發展爲例子,從零零星星、和孤島一樣相互存在的網頁開始,到需要有一個方法整理這些數據,因此雅虎出現了;而當門戶網站也已經裝不下整個互聯網時,Google 出現了。

圖像和視頻領域也如出一轍,當每年圖像和視頻總量都以數十倍的速度增長而人們到了一天再也無法整理和檢索這些信息時,計算機視覺技術就會和當年搜索技術一樣成爲救世主。搜索引擎公司如 Google 百度,對此敏感也是因爲他們逐漸意識到,當在移動端橫行、乃至上傳圖片的媒介都已經從手機變化到手錶眼鏡時,文字就再也難以用來像以前一樣標註圖像。

這意味着將來有一天,也許按照傳統方法開發的圖片搜索就再也難以滿足人們的要求,就像門戶網站在科技發展的大潮中衰敗下去一樣。在每一個科技浪潮裏都有弄潮兒的存在,計算機視覺這個領域無疑也不例外。在剛剛結束的 CES 中,Orbeus 與 AMD 聯手推出新的視頻圖像管理系統,更發佈了其基於深度學習(Deep Learning)的物體場景識別系統以及對應的 iPhone 手機演示應用程序,該系統能夠識別多於 2000 類的物體和場景。

p3

不難想象在不遠的將來,你帶着眼鏡或智能手機行走在旅途中,邊走邊看時不再需要搜索,眼鏡或手機就會告訴你眼前的龐貝古城是怎樣形成的,會告訴你眼前的阿拉斯加大螃蟹或者波士頓龍蝦怎麼做會比較好吃,會告訴你眼前扎眼閨蜜的 LV 包是不是舊款、還在不在貨架上,甚至於告訴你眼前這家其貌不揚的川菜館有全北京最好吃的麻婆豆腐。相比之下,告訴你眼前哪個方向美女比較多可能是其中相對下里巴人的應用範疇。

這個世界上,彷彿有一個無所不知的大腦,每時每刻都在將其所知所學告訴給你。大到告訴你眼前的茂陵埋葬了一段多麼氣勢磅礴的歷史,小到告訴你面前千嬌百媚的美女原來以前跟你念過同一所大學。你可以搜索照片中過去記憶裏在夏威夷沙灘上

的美麗瞬間,也可以告知你朋友原來你有如此美麗的關於關島的愛情記憶。武學之最高境界不過“無招勝有招”,搜索之最高境界不過“天下再無搜索,而搜索卻無處不在”。

另外,在圖像和視頻領域裏還有許多公司也推出了讓人眼前一亮的應用和產品。

例如早先被 Facebook 收入囊中的 Face.com,其在被收購前就推出了一款當時被人稱爲“恐怖”的應用——Klik。這款應用能夠根據手機所對應的位置,告訴你站在那裏的人的姓名以及 Facebook 主頁。假設這款應用不是因爲收購案而被關閉,可以想象,在私人信息在互聯網上大行其道的今天,我們通過這個應用,就能夠輕易知道自己見到的任何一個人的身份,包括職業經歷、愛好、甚至家庭。

除了直接面對消費端用戶的應用外,還有一些公司專注於解決計算機視覺領域一些艱難的問題,以期推動業界的發展。

例如去年剛被雅虎收購的數據標註公司 IQEngine,這家公司的存在就是爲了解決大量圖片無法標註使用的問題,他們動用亞馬遜的標註服務 Mechanical Turk,跟廣告商收費,打通公司和 Mechanical Turk 的無縫接口,一方面提供標註識別服務,另一方面也獲取訓練數據。在 IQEngine 被收購前的最後幾個月,這家公司也在自己平臺上推出了基於機器學習算法的物體場景識別以及人臉識別。

此類公司還有舊金山創業公司Ersatz,主打降低深度學習應用的門檻。任何公司都可以使用他們的平臺上傳數據並且自動完成模型的訓練。其解決的是計算機視覺領域的技術構架和流程整合問題,可以想象將來這家公司的發展方向,也許是向着類似 Cassandra 解決方案供應商 Datastax 的方向發展的機器學習解決方案供應商。

當計算機視覺技術在工業領域的一個個瓶頸都被這些公司解決,當人們整理圖片視頻數據的需求越來越熱切,並且,當前硬件技術及並行計算技術已經到了可以支撐計算機視覺領域的轉折點時,我們有理由相信,伴隨着可穿戴設備的逐漸普及,必然會有以計算機視覺技術爲本的公司在下一波互聯網新貴中出現,讓我們拭目以待!

ZZ:http://www.36kr.com/p/209210.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章