最受歡迎北大AI公開課!360集團顏水成:人工智能行業觀察與實踐

人工智能領域存在着工業界與學術界的分別,近年來,隨着AI高速發展,在這兩個不同的世界裏,分別發生了哪些大事件?作爲一家以安全爲主要業務的企業,360又是如何在人工智能時代發揮作用?本期北大公開課請到了360副總裁,首席科學家,人工智能研究院院長顏水成教授,他將從AI觀察者和實踐者兩個角度談談他對人工智能領域的洞察。

北京大學最受歡迎的 AI 公開課“人工智能前沿與產業趨勢”於 2019 年 2 月 20 日正式開課。本學期的課程邀請到了商湯科技副總裁沈徽、馭勢科技 CEO 吳甘沙、微軟亞洲研究院副院長周明、360 人工智能研究院院長顏水成、YC 中國創始人及 CEO、百度集團副董事長陸奇等 14 位來自產業界的大咖進行授課,AI 前線作爲 獨家合作媒體 將全程跟進並對北大這 14 場公開課進行整理,敬請關注!

課程導師:雷鳴, 天使投資人,百度創始七劍客之一,酷我音樂創始人,北大信科人工智能創新中心主任,2000 年獲得北京大學計算機碩士學位,2005 年獲得斯坦福商學院 MBA 學位。

image

特邀講師:顏水成,360集團副總裁,360人工智能研究院院長,IEEE Fellow、IAPR Fellow 及 ACM 傑出科學家。他的主要研究領域是計算機視覺、機器學習與多媒體分析,發表600+篇高質量學術論文,論文引用過4萬次,H-index 94。2014、2015、 2016 、2018四次入選全球高引用學者 (TR Highly-cited researchers )。

北大AI公開課第六講回顧:《微軟亞洲研究院周明:NLP進步將如何改變搜索體驗》

以下爲AI前線獨家整理的顏水成老師課程內容(略有刪減)

對AI領域的觀察

今天的分享主要分爲兩部分。

首先,作爲一個AI領域的觀察者,我想談談在學術界、工業界和創業的團隊裏,發生了一些什麼事情,以及我個人對這些事情的一些看法;另外,作爲一個AI實踐者,我想爲大家分享一下360在大安全概念的指引下,AI發展的走勢和進展。

在過去的將近一年多的時間裏面,我覺得有兩件事情對AI的影響是非常大的。

image

第一件事情是,在去年年初的時候,區塊鏈和比特幣爆發的時間點,很多VC(風投)突然一下,好像對人工智能喪失了興趣,把精力和投資的慾望完全轉向了區塊鏈,就像上面左側這張圖描述的那樣。當然,這件事情也不完全是壞事,有一個好處是:大家對區塊鏈和比特幣有了更清楚的認識。

另一件事情發生之後,AI又漸漸地開始回暖。今年,深度學習的三架馬車:Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun,拿到圖靈獎之後,又爲AI注入了一個強心針,大家有更強烈的熱情去推動AI往前發展。

在學術界,我第一個觀察到的是什麼呢?大家可以看到,AI的論文的數目已經完全超越了所有學者能夠閱讀的極限。今年恰好我是ICCV、CVPR、AAAI和IJCAL四個會議的area chair。其中,AAAI已經結束了,收到投稿量是7095篇,接收了1150篇;CVPR是在2月底開的這個area chair Meeting,收到了5100多篇論文,接收了1300篇,ICCV和IJCAL還在審稿當中,分別至少有四千多篇的投稿。

過去我們參加一個會議,基本上利用四天左右的時間掃一遍會上感興趣的文章,是完全沒有問題的。但是現在每天發表的論文的速度,讓學者完全沒有時間去把它進行通讀,這對於學者來說是一個非常大的挑戰。很多人也希望利用AI來進行輔助,篩選自己感興趣的AI論文,以利於我們能夠更好學習AI。

image

有一個人利用業餘時間寫了一個叫Arxiv Sanity Preserver,希望用人工智能的方法,把讀者感興趣的論文給篩選出來,同時可以相應的去推薦一些用戶可能會感興趣論文,非常像信息流的推薦系統。我覺得如果AI能夠幫助我們更好的讀AI論文,也是一個非常有趣的事情。

image

第二個觀察是,門派已經逐漸消失了。以計算機視覺爲例,我在讀書的時候,有Adaboost派、有Deformable Model派、有特徵設計派,也有理論功底比較深的And-Or Graph派,但現在已經完全改變了,全民都想只用一招,就是Hinton的深度學習。

第三個觀察到的現象是,現在論文的影響力出現了資源Biased的現象。什麼意思呢?像Google、Facebook、微軟這樣的大公司,也包括國內BAT這樣的公司,要寫一篇好的論文,可以調用的GPU的數量可能是成百的,甚至更多,但是在高校裏面,一般一個學生只能分到一塊到兩塊GPU,情況好點的話,也許有八塊GPU可以去做一篇論文。

image

可以看到,最近發表的這些原創的有影響力的論文,它使用的GPU的資源是非常令人驚訝的,比如谷歌這篇NASNet的論文,它花了83個GPU-Days;另外一篇Facebook的論文,用了 7382 個 GPU-Days,這在學校裏面是基本上不可能做到的事情;前不久發佈的BERT,用了256個TPU-Days。

大家可以看到,這些工作確確實實都開創了一個新的時代,或者說一個新的方向,都非常有價值,但這些工作從某種意義上來說,已經是學術界沒有辦法去做的了。這個情況對於學校的研究者,以及AI研究公平性方面要引起反思,當然我們不能說它好或不好,但是事情都已經發生了,我們大家還是需要注意的。

第四個觀察是,在近一年時間裏出現的重要的進展,它們的落地性還不是特別的好,所以我們用了一個詞叫:讓子彈再飛一會。比如今年的BigGAN和StarGAN,它的效果是確實非常好,但是我們也沒有想清楚這個東西到底可用來幹什麼,到底有什麼樣的商業場景。

image

這可能是在接下來的一年或者更長的時間裏面大家所需要思考的,比如今天的BERT效果非常的好,但是它的功耗實在太大了,還暫時沒有辦法直接在產品中使用,怎麼樣去降低功耗,讓BERT模型仍然能夠達到比較好的效果,是需要進一步往前推進的事情。

另外一個就是強化學習。Big GAN花了很多的人力在做這個方向的研究,但其實,GAN在其他場景的價值,還沒有得到充分的彰顯。我們也曾經嘗試,讓它去解決比如像廣告推薦、金融風控等方面的問題,但是後來跟其他的公司進行探討的時候,我們發現強化學習在其中發揮的價值還是非常的小。這些東西都非常有價值,但是在實際的商業場景中,可能還需要讓子彈再飛一會,或許還需要更長的時間,才能讓它發揮出價值來。

image

另外一個觀察是,在端上的高效的模型已經成爲熱點,而且是剛需。也就是說,現在深度學習已經從“可以用”時代逐步進入到“用的起”時代了。所以在過去這一年裏,大家可以看到有非常多的相關工作和研究在進行,比如:怎麼把硬件的特性考慮進去,可以讓模型在端上能夠有實時性?

學術研究 VS 工業研發

image

從學術界的角度來看,我們基本的目標是希望能有一些優質的論文發表,能在比賽上獲得更好的成績。我認爲在學術界的研究更像是一種個人的衝鋒戰,但是到了工業界之後,特別是成熟的公司,他們的目標不只是做算法研究,或者說純粹的發表論文,而是需要把技術放在一個閉環裏面。

現在工業研發中,有兩個維度非常重要,一個是價值閉環,一個是數據閉環。

image

“價值閉環”我第一次看到是在《創新者的窘境》這本書裏面,它在裏面講了四個緯度:技術、產品、客戶和體驗。爲什麼有一些好的技術,在傳統的大企業裏面,反而落地非常困難?一個主要的原因是:技術雖然能夠帶來價值的增加,但是對於消費者、銷售商、客戶或者企業,如果有一方的利益沒有增加,那他就沒有動力去利用這項新技術。所以一定要把技術放在一個閉環裏,讓閉環裏每個維度的人都感受到價值的增加,這樣的話,纔有可能讓一項技術在傳統的企業裏被大量的採用。但這是非常困難的。

而據我們的觀察,最近很多的互聯網的產品,除了這四個緯度之外,還有一個維度也變得非常重要,就是社會價值觀。當有一個產品的社會價值觀沒有起到正向的推動作用,往往這個產品也很可能會走向失敗。

在閉環中,企業、技術、產品、客戶、價值觀,他們之間是相互依存的。我舉一個例子來說明。

image

首先我們肯定是通過技術創新來孵化新的產品,但是我們會在真實產品中,去收集有效的數據,用這些數據來迭代和優化我們的技術,最終技術又進一步的提升產品的體驗。

我們來看看用戶的feedback會對我們的產品產生什麼樣的有意義的價值。

image

我們360做了一個掃地機器人,掃地機器人純粹依靠傳感器來轉向有時候不是那麼精確,有時候需要依靠碰撞的方式來確定是不是到邊界了。我們其實一開始並沒有在機器人外面做緩衝裝置,而是有個用戶,他自己在掃地機器人上面加裝了這個東西,這樣的話,當機器人碰到一些比較脆弱的,或者比較珍貴的傢俱的時候,就起到了一個很好的保護作用。

這些東西在公司裏面,可能很少有人會這麼去想,但是我們有這麼多的用戶,用戶會根據他真實碰到的問題,有些時候會產生一些非常創新的想法,這個想法返回到我們企業裏,有可能會給我們的產品帶來進一步的改良和優化。

image

第二,數據閉環。這其實是非常重要的,特別是對算法來說,我們一定要建立起數據閉環。我們一般會專注在算法模型的部分。算法模型和產品本身產生的這個數據,以及用戶在使用過程中產生的各種交互的數據,要把它形成一個閉環。

比如:算法模型爲智能產品提供一個功能,同時智能產品又爲用戶提供服務,用戶在使用過程中,又會有很多反饋信息,它們合在一起,形成一個閉環,這個閉環是我們發現問題、解決問題和不斷的去迭代產品的一個過程。
image

以360的一款門鈴產品爲例,這款產品有人臉識別,或者人形檢測等等功能,這項功能部署在雲端或者本地端,產品就會進行實時的分析,而這些分析的結果,就會發送到用戶的手機上,用戶在使用手機的時候,可能一開始並不知道是哪些人,但是收集到的數據比較多之後,系統就會把人聚堆,用戶也可以對某個人進行標註,系統也可能會幫用戶把標註內容分成幾個小的聚堆。這些信息反饋回來之後,我們可以用這些數據去進一步提升人臉識別,或者人形識別的精確度。

那麼爲什麼要建立一個閉環呢?我覺得一個核心是:因爲AI沒有完美的算法,比如設計一個人臉識別的算法,並不一定在所有場景都能取得很好的效果。至於爲什麼人臉識別的一些公司能存活下來?我認爲主要原因是:每家公司都在特定的一些場景下,有自己的數據優勢,可能在某個場景下,A公司能一統天下,別的公司就沒有辦法能夠進來。

另外,特定場景的數據,還可以不斷的優化算法。最關鍵一點:產品算法模型的優劣並不是產品成敗的直接決定因素,產品的設計、用戶交互的友好性等等都要不斷的考慮進去。這些因素可以在用戶的反饋和數據的生成過程當中逐步得到,最後能形成一個非常有競爭力的產品出來。
image

對於學術界研究和工業界研發的差別我有一個小的總結:我認爲學術界更像是兩個人在談戀愛,工業界更像是結婚後的男女。

如何理解呢?學術界的研究,每天一點點的進步都會讓你非常的開心,比如你有一個idea,發表了一篇論文,同時還希望達到新的境界,希望發一堆論文出來,看到的全是好的一面,而且你可以自由的憧憬,爲什麼?因爲暫時沒有人催你生孩子(產品),你可以夢想如果我用這些技術打造出一個產品會多麼的美好,而且你會認爲這個產品一定會是世界上最好的產品,因爲反正你不用真的把這個孩子給生出來。這就是學術界的情況。

但是到了工業界,更像是結婚後的男女,你發現生孩子(產品)成了你最首要的任務,因爲你的老闆天天會催着你生孩子。你以爲生出來的孩子很乖巧,特別是剛從學術界出來的時候,會認爲我做出來的產品肯定是世界上最好的,但是來到工業界之後,你會發現一堆的問題,一堆的毛病,有很多問題你之前根本沒有想過,比如供應鏈、銷售等等,有各種各樣的問題,都是你沒有想到的。以前你不關心的因素,後來成爲了最關鍵的因素。

用戶不喜歡產品,你就要不停的根據經驗和用戶反饋來調整,最後這個產品越來越好了,你的頭髮也白了,身體也壞了,但是看着自己的孩子還是一臉的幸福。這確實是學術界和工業界的差別。

成熟企業 VS 創業公司

image

我覺得創業公司,其實有些相似性,特別在技術的維度。所以我把關於初創企業的一些觀察,和成熟企業的觀察就放在一起了。

首先對於初創公司來說,AI不是一個最終的產品,它必須要跟具體的場景和業務相結合才有價值。我們總是要明白,AI只是在一個閉環裏面的一個子鏈條或者一個加速器,它並不能算是一個產品。

比如做一個智能硬件,除了算法之外還有產品的工程化、設計、市場銷售、服務器,還要考慮AI的硬件化,讓它能夠更加的高效。但是我們往往更沒有想到的是供應鏈和售後到底會發生什麼事情。這些是我們剛開始不會想事情。

image

第二點,我們要承認AI技術已經不是孤品了,它已經不存在什麼真正意義上的必殺技。我在觀察的時候,突然想起我看過的《馬達加斯加》,感覺非常形象:在紐約時代,這匹斑馬就是一個孤品,因爲沒有別的同類,它所會的一切技能就是必殺技;但是當他回到草原的時候發現不是這樣了,其他的同類也都會同樣的技能。這段視頻非常好的描述了當前的AI的狀況,AI技術已經不再是孤品,那麼大家也不必幻想AI存在必殺技。我們現在更多的需要考慮,AI怎麼樣能跟商業閉環融合在一起,逐步形成它的壁壘。

image

另外,AI是沒有完美的算法的,但是我們又希望有毫無瑕疵的用戶體驗。去年我也分享過,想做一款好的產品,純粹的算法科學家是不夠的,你需要有產品的工程師來幫助你去用不完美的算法,產生無瑕疵的用戶體驗。

舉個例子,比如說你有人臉方面的各種技術,如果你只是想用它換臉肯定效果不行,但是如果你想用它來,在人臉上加上一些裝飾,就能做得非常好,而且效果也會非常的不錯。

另外一方面,如果AI沒有完美的算法,那麼人機協同,或者人在閉環,往往也有一些商業模式能夠建立起來。一般的做法是:先人在閉環,再逐漸的AI化。

舉個例子,我原來在新加坡的時候去評測過的一家叫TRAX的公司,這是一家以色列的公司,它所做的工作是識別貨架上的商品,而且要識別到子類,同樣是洗髮水,它要知道洗髮水的尺寸等等。

image

它的動機是什麼呢?商場裏面每年有大量的商品,由於樣式太多,人工沒有辦法去實時監督商品數量,導致每年損失高達五百多億美金;另外,貨架上的商品怎麼樣擺放,也是有嚴格要求的,如何擺放才能讓客戶去購買的可能性最大。

image

這家公司通過攝像頭,去自對識別貨架上商品的量有多少,以及它的位置是什麼樣的。有一些供應商,爲了能夠得到這個數據是願意付費的,因爲他們會經常派人,去不同的超市商店裏檢查自家產品的擺放等等,這個工作人工的成本非常高,如果能把它自動化,一些公司肯定是非常願意的。

但是目前物體識別的精度只有96%,怎麼辦?這家公司就在印度和馬來西亞,召集了一批實時調度人員,先用自動算法做分析,再用人工來進行修正,通過人機協同的方式,運行起來了這樣的商業模式。隨着數據收集越來越多,它的精度可以逐步的提升,人工校對的人數也會隨之減少。

所以,人機協同也是解決人工智能算法不完美的一種很好的方法。

另外,現在大家都在想,還有沒有新的元素,能夠去推進AI技術往前走?我個人覺得,5G和AI芯片應該是AI兩個巨大的推動力。

image

首先,5G的下載速度快,據說能達到一秒鐘下載1.7G的數據;第二個特點是高接入量,5G的設備的數量,可能是現在的幾十倍,或者更多;另外很重要的一點是低時延。

有了這些特性之後,比如在VR領域,如果帶寬提升了,那麼用戶的體驗就會變得更好;此外,高接入量對IOT有非常大的幫助;至於低時延,對於AI和自動駕駛是非常有價值的,因爲自動駕駛車輛的設備,以及車和車之間的連接都需要具備低時延的特點。5G對於這些場景的落地有非常好的推動作用。

而AI芯片最大的好處是什麼呢?如果IOT設備的計算全部靠雲端的話,那麼在時延和隱私性方面可能會不那麼好,如果端上智能設備的算力足夠,比如家裏的攝像頭,那麼就可以把圖像通過本地進行處理,不需要上傳到雲端。

image

如果把對於學術界、成熟的企業和初創企業的這些觀察總結起來的話,大家可以看到,對AI不只是去討論它的三要素,也不只是說AI要落地,而是說現在大家已經開始要關心return or investment(投資與回報),AI也真的開始迴歸商業的本質,跟之前的互聯網、移動互聯網時代一樣,商業回報是大家最關心的問題。

以上是我過去大概一年多的時間裏面的一些觀察。

大安全下的人工智能

接下來,我跟大家分享一下,360在過去一年裏面,AI的佈局和進展是什麼樣的。

大安全與安全大腦

360去年明確提出來一個“大安全”的概念。其核心思想是:安全已經不只是侷限在網絡空間裏面的信息安全,攻擊也不只發生在網絡空間,由於智能的控制的發展,原本存在於網絡空間的攻擊已經對物理世界產生了危害。

image

所以,安全公司希望的是,給大家提供一種安全感,包括安全、安心、安康等多個維度。

在此基礎之上,360人工智能的佈局主要分成兩個部分。

現在360的業務佈局叫“一體兩翼”。“一體”是核心安全,就是傳統的安全業務;“兩翼”一個是IOT業務,一個是互聯網業務,比如360的搜索引擎、瀏覽器、信息流等業務。

一方面,360去年提出了360的安全大腦,希望用人工智能和大數據的技術,去打造分佈式的智能安全器,其主要目的是防禦網絡的攻擊;另外一方面,是基於360的人工智能的平臺打造四個引擎,分別是運動引擎、交互引擎、視覺引擎和決策引擎。這四個引擎一個方面是支撐IOT業務所需要的智能分析能力,同時還可以支持互聯網的業務,因爲這裏有一些比較難的問題,或者可以進一步提升的問題,希望能夠通過決策引擎去支持。

安全大腦的提出,是因爲攻防的嚴重的不對等。防禦方面,我們對網絡所有的可能性,所有的地方都要防範;但是進攻的話,只要找到一點漏洞,就能攻進去。那麼在這個時候,就會產生攻防的嚴重的不對等。

比如說在安全領域,每年都會有一個事故數據泄露調查報告,他們發現:黑客要進行攻擊的話,如果初步得手,則需要跟蹤,開始有泄露,也需要跟蹤,但是網絡安全人員要發現這個數據泄露了,他需要有足夠的時間去啓動跟蹤環節措施,這是一個非常漫長的過程。

image

從這裏可以看得到:攻擊很快,防守很慢,防守環節也很慢。與此同時,網絡攻擊也越來越自動化和智能化,防守能用AI,攻擊當然也能用AI。這時候就意味着我們需要對安全的響應速度比以前更快,也就需要大量技術嫺熟的網絡安全人員。

但是事實上,中國的網絡安全人員是嚴重的缺乏,所以360希望是把多年積累的網絡安全能力,形成感知學習推理決策和預測的能力,希望能爲有安全需求的場景提供一站式的服務。

首先這是一個人機協同的系統,爲什麼?因爲AI再怎麼強,很多的場景還是需要白帽子,而且很多時候,AI的價值是協助白帽子發現其中的問題。同時,它也是一個開放的生態,360的網絡安全人員目前不能解決所有問題,我們希望接入第三方的能力和速度,讓安全大腦變成一個分佈式的協同作戰的武器。

此外,要把這些能力開放給第三方,讓它有能力去沉積一些和安全相關的國家和企業的項目。在2018年的上半年,360的安全大腦,攔截的惡意的程序就有396億次,攔截釣魚攻擊200多億次,攔截垃圾短信48億條,攔截騷擾電話接近200億次。

半年的時間,可以看到它所涉及到的面和量都是非常巨大的。

四個AI引擎

下面主要來給大家分享四個AI的引擎。

image

第一個引擎叫交互引擎。以360兒童手錶爲例,小孩需要跟手錶利用語音交互通話,後臺就需要有一個用於交互的引擎,同時360今年剛發佈的AI音箱也是通過這個交互引擎來提供人機交互的能力,這個引擎叫做NXOS。

第二個引擎叫運動引擎。這個引擎主要是希望智能硬件能夠自主和安全的運行,現在主要是在支持360的掃地機器人。

第三個視覺引擎算是360的強項,主要是希望對家庭還有小區的安防提供統一的解決方案。

image

第四個引擎叫決策引擎,依靠的是data intelligence(數據智能),希望用360積累的大數據對未來的趨勢進行智能的判斷,用來做大數據的風控和廣告,還有信息流、短視頻的智能的推薦。

總結

最後做一個小的總結。

image

我覺得從學術界、成熟企業以及初創企業的觀察來看,大家不再只是考慮AI長遠的落地,更加關注AI的ROI,也就是說,AI正在迴歸它的商業本質了,這個是遲早的事情。

那麼在實踐的維度,360在大安全的指導下,用360的安全大腦來支撐360的網絡安全,用四大人工智能引擎去支撐360的IOT業務,和互聯網業務。

同時我覺得因爲三架馬車獲得了圖靈獎,在接下來的兩年,甚至更長的時間裏面,跟AI相關的行業應該會繼續具有強大的生命力,謝謝大家。

問答環節

雷鳴:對於GAN、強化學習和BERT,你覺得未來會有一些什麼樣的突破,以及這個突破會帶來什麼樣的一些商業機會呢?

顏水成:我覺得GAN,應該對於圖像和視頻的生成,肯定會有很多的迴應的點。打個比方,你在社交媒體裏面想用一個頭像,現在網上直接下載的圖像很多都有版權的問題;或者你在進行文字創作的時候,肯定會希望有一些配圖,如果你到網上去買,不一定買的到,同樣如果直接下載,那麼版權問題的風險是非常的大的。用自動生成的方式,可以讓創作產生更大的價值,而且現在有個趨勢,不只是圖像,連視頻也能生成,這樣發展的空間就更大了。當然這是指好的一面。

不好的一面就是,通過自動生成可以生成任何人,所以可能將來在網絡上看到的新聞圖片有些是自動生成的,這樣反而會帶來一些混亂。從安全的角度來說,利用AI判斷到底哪些圖片是真實的,哪些是虛假的,由此引發的相關研究也是很有前景的。

至於BERT,我個人是非常看好它的前景,但是它的訓練代價太大,最近有很多團隊在用BERT刷榜,但如果你仔細去看會發現,刷榜的人都沒有對BERT重新訓練,都是用之前訓練好的模型;當然也有一些團隊在探索,有什麼辦法能夠在真正的業務裏面用上這個模型,還需要一些時間,但前景我非常的看好。

而強化學習可能前景就更不清晰了,我們看到了它確實是解決很多的問題,比如用來做模型的生成,像GAN這樣的模型也在廣泛的使用。如果公司是用它來瞄準長期的收益,這個東西可能會是很好的,但我覺得有如果公司比較願意保障當前的收益,可能就沒有辦法立刻看到它的價值。

雷鳴:有一個觀點認爲,深度學習的發展跟算力是捆綁的,隨着算力的提升,很多問題都解決了,如果沒有算力大幅度的提升,很多問題僅靠調整模型可能是解決不了的,對於這個觀點你是怎麼看的?AI的未來真的就是暴力求解嗎?

顏水成:我的個人感覺當前確實是比較依靠算力和有效的數據,比如說,圖像和語音的問題都解決的不錯了,但爲什麼NLP問題沒能解決的特別好?我們當時有一些探討:

可以把這些問題看成不同的數據空間,比如語音更多的是一維的空間,很容易就能夠全覆蓋到;而圖像的數據空間相對語音來說會更大一些,隨着社交媒體的豐富,像ImageNet這樣的數據集也越來越多,圖像的數據空間也開始逐漸變得更加充分了;但是NLP領域,就好比要把所有的詞彙全部考慮進去,包括排列組合等等,它所擁有的空間比圖像空間更大,因此可能需要的樣本更多,如果再把多輪對話、人機交互等等問題考慮到的話,數據空間就更大了。

現當前的狀況,幾乎沒有這麼大的數據能把整個NLP空間的話有效的覆蓋,這也是爲什麼現在人機交互的過程中,機器仍然很笨的一個主要原因。假設將來收到越來越多的日常高頻的人機交互數據,你或許會發現機器人變得越來越智能。也許到將來的某個時間點,平常我們能見到的一些交互,就都不成問題了。

那麼要處理這些東西,首先算力要足夠。大家也知道之前OpenAI最新開源的模型GPT 2.0已經可以自己生成文章,這也是靠海量的數據和大量的計算資源堆出來的結果。

也許隨着數據的增加,和計算能力的增強,解決NLP問題會比以前解決的更好。但是我是覺得,可能還會有差別,至少現在與智能音箱對話的人機交互方式,跟兩個人類交流的方式還是差別很遠的,所以至少在這個維度,應該是暫時沒有辦法讓這個機器達到一個與人類接近的地步。

雷鳴:現在也出現一種叫多模態融合的方向,要理解視頻內容,還要跟自然語言有關,前段時間微軟也推出一個在圖片上,通過語言去尋找某個東西的模型,對於這個方向你是怎麼看的?

顏水成:我是比較悲觀的。大家都在講通用智能,我也有朋友是做這個方向的,比如按照某個方式去讓智能體去接觸外部環境進行學習,雖然能夠從理論上證明,最後會具備強人工智能的能力,但是我覺得還是有些弱。這類實驗也非常簡單,有點像一個非常原始的遊戲,去模擬這個過程,所以我個人覺得達到強人工智能的時間還是有些漫長。

而多模態融合現在也沒有看到特別的好的方法,之前也有一些研究想要弄明白,人類大腦的視覺和聽覺到底是如何協同工作的,但是到2017年也基本上沒有任何實時性的進展。

當時在多媒體領域,有一個很好的夢想是希望能把圖像、語音和文字,三個模態的信息能融合在一起去做一些事情,但是,如果去看這些論文,會發現其實它的融合機制還是比較簡單的,而中間是怎樣交錯,並影響到最後的結果,我覺得還缺少一層比較好的機制,現在的多模態,做得還是很簡單。至少從我自己有限的研究裏看,多模態發展需要時間還特別長。

雷鳴:你覺得在視覺上,未來有哪些產業還會落地或者發展?

顏水成:第一,我覺得教育還是一個比較重要的方向。現在的教育資源確實不夠,要麼把老師叫到你這邊來,要麼把孩子送到補習的地方去,可是有個現實問題,路上交通的時間成本太高了。我是覺得從視覺角度來說,通過基於視覺的交互,可以完成比如作業的批改,或者是在學習過程中,利用視覺技術分析孩子當前學習的狀態等等。

另外由於5G的出現,一定會有新的內容產生出來,用視覺的方法去幫助用戶產生適合在5G形態上的內容,肯定會催生很多新的公司。當然不僅僅是我們現在見到的短視頻產品,可能會是別的視頻產品,這塊是視覺比較強的地方。

雷鳴:你對自動駕駛是怎麼看待的,是偏樂觀一點的觀點,還是偏悲觀的?

顏水:我有一個觀點是,希望做任何事情,經常有階段性產品出來。但是自動駕駛的話感覺,在我看來是比較難有階段性產品出現。因爲我是從學術界來到工業界,所以我內心還是希望比較快速能看到一些有效的項目出現。另外,自動駕駛的週期比我們想象的要長,今年很明顯,大家開始比較少的去談一些L4或者L5的產品,開始想要在一些受限場景下嘗試產品的落地了。但是我個人還是覺得這個方向是非常這個值得投入,也是未來應該關注的一個方向,也許需要更多的年輕人做這個事情。

下期預告

4 月 17 日 週三晚 18:40,北京大學“人工智能前沿與產業趨勢”第八講,將由好未來AI業務負責人楊松帆爲大家授課。

感興趣的小夥伴可以添加 AI 前線編輯微信:caifangfang842852,備註“北大聽課 + 公司名稱 + 職位 or 學校 + 專業”,通過後可進入課程活動羣,第一時間獲取直播鏈接、視頻回放、課程內容整理、北大 AI 公開課系列課程信息,以及與其他小夥伴互動交流。
祝大家聽課愉快~

學習資料

點擊“閱讀原文”,即可觀看本期公開課視頻。

在 AI 前線微信公衆號(ID:ai-front)後臺回覆關鍵詞“北大 AI 公開課”,可獲取往期課程文字材料 + 視頻回顧等學習資料。

image

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章