計算機視覺熱潮的“B面”:技術或遇瓶頸,落地生死局

當潮水褪去,就知道是誰在裸泳。這場計算機視覺熱潮背後的“冷”不容被忽視。

計算機視覺可謂是AI最火爆的技術領域,這個賽道上誕生了一批最炙手可熱的明星獨角獸,學研與創投風潮一浪蓋過一浪…

從事計算機視覺算法研發多年的CV領域創業者李尋歡見證了這個行業的起伏。

我10年開始找工作,但當時沒什麼工作可以找,國內大廠基本上不需要這個崗位,感覺跟我最相近的崗位是懂PS的美工。

很快,情況就發生了變化。

到了2012年左右,因爲GPU加速的紅利,計算機視覺突然就“塵土飛揚”了起來,後來不少AI公司都起來了。

曠視、依圖等CV獨角獸都是在那一年創立的。計算機視覺創業在2015年形成了一個小高峯,據前瞻產業研究院統計,大約有40家公司在這一年成立。


2016-2018年,在由深度學習引發的第三次AI浪潮助推下,計算機視覺按下了“快進鍵”,尤其是在創投圈,大額融資頻現,簡直成了資本寵兒,吸金能力無敵,單2018年一年,該領域融資額高達230億。與此同時,資本的涌入也令計算機視覺技術快速應用到各個行業,走到普羅大衆身邊。

2018年是AI商業化落地的元年,處在焦點中的計算機視覺領域也迎來了落地的關鍵階段,不過這個進程卻進行的並不盡如人意,能真正實現盈利的公司寥寥無幾。

很多從業者切身感受到,到了2019年,計算機視覺行業明顯不如上一年熱鬧了。

前兩年大家都在矚目的AI獨角獸,我現在都時不時聽到圈中好友抱怨生活艱難,開始四處‘張望了’,李尋歡感嘆道。

熱潮漸冷,關於計算機視覺已觸及天花板的論調也此起彼伏。

CV技術或已至瓶頸

近一年多來,商湯、曠視、雲從等CV獨角獸頻頻傳出有登陸資本市場的計劃及動作,希望成爲“AI第一股”的曠視,IPO之路波折不斷,現在距離遞交招股書已經過去了8個月,仍遲遲沒有準信兒。

不久前,商湯科技又被曝出IPO折戟,何時上市前途未卜。有專家犀利指出商湯等頭部計算機視覺公司技術同質化嚴重,沒有建立起堅固的技術壁壘。

這不禁令人深思,計算機視覺技術還有創新力嗎?

曾先後在360AI研究院、陌陌深度學習實驗室工作,擁有6年計算機視覺從業經驗的言有三分析,很多CV公司技術同質化的原因,一是因爲很多創業公司原先是從學校實驗室起家的,在學術界時,大家關注的內容有很大一部分重疊,導致創業後業務線也有很大一部分重合。另一方面,人才的相互流動也進一步促進了這個問題。

技術同質化是絕對的,當然這個同質化是因爲一些底層的基本技術,每一家公司自己都必須要掌握,所以會存在同質化,就好像實時聊天軟件,很多公司內部都要自己有一套,它們雖然同質但必須存在,而且確實技術差不多。

值得一提的是,2018年,商湯科技副總裁柳鋼曾就“算法驅動”發表過評論,他表示,現在計算機視覺還沒有到算法同質化的階段,而且在未來十年也到不了,只會差距越來越大,不存在一個算法通吃天下(的情況)。

言有三認爲,從某種意義上來說,計算機視覺現在的確已經進入了瓶頸期。

以圖像分類、目標檢測、圖像分割爲代表的一些基礎技術經過了近幾年的發展後,精確度已經達到產業落地水平,但剩下的一些問題比較難攻克,如非常細粒度的分類,非常小和模糊的目標檢測和分割,以及如何保證在複雜光照變化下的分割結果的穩定性等。此外,從圖像遷移到視頻還面臨着平滑性問題,圖像中的細微不足在視頻中容易被放大。

去年2月,計算機視覺奠基人Alan L. Yuille曾撰文表達他對當下計算機視覺技術發展的擔憂,他認爲,計算機視覺的發展面臨瓶頸,深度學習在其中起到的作用有限,需要找到新的突破口。

深度學習的進展讓CV識別準確度大爲提高,但深度學習過於依賴大量的標註數據,這讓計算機視覺研究人員在簡單卻繁雜的標註任務上耗費了大量時間,而忽視了更爲重要的任務。這兩年,業內對於深度學習陷入瓶頸的討論也越來越多。

過去這一年多來,計算機視覺技術的發展主要在兩個方向:一個是繼續解決原來的老問題中的難題,如跨年齡、大姿態、有遮擋的人臉識別,上述領域的研究一直都有一些進展,但能算得上“突破性”的,還比較少。

另一個則是新的研究方向,在過去一年裏,針對人臉的各種編輯技術得到了快速發展並很快應用落地,如AI“換臉”,這可以看作是一項突破性的進展。

不過應當注意的是,AI換臉技術雖然火熱,但因其濫用也頻頻引發的數據隱私安全問題。當CV技術與人們的實際應用需求相結合的時候,如何從技術的角度設置多重保障來保護用戶隱私,如何防止技術被濫用,這也是人們需要反思的。

計算機視覺算法還存在較大的侷限性,例如現在應用廣泛的視頻監控技術還不是很成熟,深度神經網絡在涉及到理解可視化數據的上下文和描述不同對象之間的關係時常常失效,純無監督學習難度大等,短期內不太可能出現突破性的技術解決方案。

落地之困

計算機視覺之所以火,一個原因是“好落地”,相較其他AI領域,它落地更容易也更順利。但真的深入到各個行業的時候,很多CV公司卻發現實際情況並沒有想象中簡單,走向實用之路任重道遠。

從2018年開始,CV公司的商業化變現壓力陡增,行業的洗牌愈發加劇,那些找不到合適的落地場景,抑或是還沒有產品和業務線,生態殘缺的,商業模式不清晰的公司,很可能將走上生死場。

落地落不下去,變不了現,問題到底出在哪裏?

上文我們談到了技術上的同質化。技術觀察者李楓向InfoQ表示,計算機視覺熱潮也導致了大家在落地方向上的同質化,很多公司扎堆到某幾個熱門場景去落地,這實際上也降低了他們的核心競爭力。

扎堆現象比較嚴重的是安防場景。智能安防是計算機視覺最主要的應用場景,2017年,安防應用佔中國計算機視覺應用的比重高達67.8%。

安防已成一片紅海。商湯、曠視、依圖、雲從等“CV四小龍”等都在該領域作了重要佈局,業務同質化比較嚴重。在這個賽道上,還有“海大宇”等傳統的安防巨頭,BAT等互聯網巨頭近年來也加速入局,對於中小CV公司來說,這意味着面臨更大的競爭和生存壓力。

除安防外,CV四小龍還在金融、汽車、手機、新零售等場景都推出了相應產品落地,業務高度層疊,交鋒頻繁且激烈。以智能手機場景爲例,曠視和商湯是爲了搶奪市場,可以說是水火不容,曠視副總裁吳文昊曾喊話對手,“一定要把商湯擠出去”。

找到場景後,要完成從技術到場景再到盈利的商業閉環,還需要掌握箇中的平衡之道。不少CV公司以算法起家,技術基因濃厚,往往容易忽視工程能力。

李尋歡在創業之初就遇到了這個問題。

剛創業時,他的團隊主攻研發2款產品。在研發過程中,因爲團隊都是技術出身,在軟件方面的坑,倒是基本能很快填上。“我們早期的人寫代碼的速度都挺快的,常常每天更改上千行代碼,軟件部分迭代速度很快,對傳統的算法做了很多改進,也發明出了很多創新的算法,這也成爲後來產品與可比產品的差異化優勢。

遇到的棘手問題多數跟硬件相關。

工業級產品的穩定性非常重要,要達到工業級別的穩定性並非一朝一夕能完成,需要長時間的測試迭代。因爲涉及到的硬件研發週期耗費的時間比較長,有一款產品的發佈日期比計劃晚了一個月。

現在再回過頭來看,李尋歡總結出了他和團隊在推進技術成果落地的過程中,踩過的3個“坑”

第一:產品還沒研發出來,就着急跟項目。

產品研發期間,時不時有朋友找過來給我們推薦項目,有的價值幾萬,有的幾十萬、上百萬,誘惑其實挺大的,我們也花過一些時間跟進,但大部分沒有結果,這個回來看,這其實就是“坑”。現在有一些不想做的項目推進來,都不會浪費時間去接觸了,實在是因爲沒有時間,主要矛盾理清楚了,很多事情都順了。

第二:沒有認清目標,產品研發進度冒進。

因爲沒有認清楚目標,我們的產品研發進度非常迅猛,團隊人員又實在有限,最後反省再三,才矯正回來,以首要產品爲核心方向,制定了具體且集中的路線。

第三:切忌剛創業就狂招人。

現在想來,如果創業初期,一下子招很多人,可能就直接掉進“坑”裏了,再出來,成本就高了。

那些踩過的坑,終於都趟成了“路”,累積成創業路上的寶貴經驗。

研究熱潮背後

學術界也興起了“計算機視覺研究熱”。

言有三不禁感慨,現在行業的繁榮與他在2012年剛入行時,簡直髮生了太大的變化。

他讀書時一直在做傳統圖像算法,當時最直觀的感覺就是,行業的門檻很高,因爲現成可以借鑑的技術不多,要做出創新性的研究也很難,這也直接導致了從業者非常少。

現在整個CV的工具鏈已非常完善,加之良好的開源環境降低了CV技術入門門檻,越來越多的學者被吸引到這個領域來研究,從業者數量近年來有呈現井噴勢頭,甚至“全民計算機視覺”。

《斯坦福2019全球AI報告》顯示,從2014年開始,“計算機視覺”類論文一直是規模最大的AI(論文)子類之一。CVPR是參加人數最多的AI會議之一。

最近幾年,計算機視覺頂會的論文投稿量也在激增。2016-2020年,CVPR 論文有效投稿數量分別爲,2123篇、2145篇、2620篇、3303篇、5160篇和6656篇,增幅不斷擴大。

不過,論文的質量卻沒有與攀升的數量形成正比。最近兩年,CVPR的論文收錄量已連續“二連降”,2019年收錄論文1300篇,接收率爲25%,CVPR 2020接收率降至22%。

現在的博士生、研究生沒有一篇頂會論文基本上很難找到好的工作。一位匿名知乎網友奉勸大家不要再選計算機視覺作爲研究方向了,他以親身經歷感受到這個方向已經很難找到合適的工作了,因爲研究已遭遇瓶頸,很難有新的東西出來,行業也趨於飽和,要想進大廠,學歷和履歷都得拔尖兒。

“有些新晉公司爲了博名氣拉投資會刷榜,而頂會門檻的降低以及論文指標化與薪資、就業機會以及升職掛鉤,甚至催生了團隊代寫論文的產業鏈”,言有三注意到,他希望大家能夠將重點放在實實在在利用CV技術去解決實際問題上。

現在的CV及AI研究似乎變得越來越“扁平快”了,CV領域底層的理論發展和經典方向的研究速度在放緩,而新涌現的應用卻在加快。“某種程度上,這是行業成熟的必然規律,但還不到飽和狀態,只是那種新鮮感可能沒了”,言有三表示。

技術研究終究是一個不能浮躁的活兒。

目前學術界在三維的圖像視頻處理、視覺SLAM、圖形學、多模態技術的融合、少樣本、弱監督及無監督等前沿CV方向的研究十分熱門,但相對還不成熟。言有三認爲,下一個重大技術突破可能會視覺SLAM和圖形學方向出現。

結語

當然,一些不好的現象只是行業一個側面,不能否定的是,近些年,計算機視覺領域確實涌現了大量的研究成果和技術創新,我們也能切實感受到CV技術應用到了生活之中。

但歷史的風口論無數次告訴我們,當潮水褪去,就知道是誰在裸泳。當我們在期待一個火爆的風潮誕生革命性的成果時,也需要警惕它背後的那些“暗影”。

(應受訪者要求,文中李尋歡、言有三爲化名或網名)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章