最受歡迎北大AI公開課！360集團顏水成：人工智能行業觀察與實踐

人工智能領域存在着工業界與學術界的分別，近年來，隨着AI高速發展，在這兩個不同的世界裏，分別發生了哪些大事件？作爲一家以安全爲主要業務的企業，360又是如何在人工智能時代發揮作用？本期北大公開課請到了360副總裁，首席科學家，人工智能研究院院長顏水成教授，他將從AI觀察者和實踐者兩個角度談談他對人工智能領域的洞察。

北京大學最受歡迎的 AI 公開課“人工智能前沿與產業趨勢”於 2019 年 2 月 20 日正式開課。本學期的課程邀請到了商湯科技副總裁沈徽、馭勢科技 CEO 吳甘沙、微軟亞洲研究院副院長周明、360 人工智能研究院院長顏水成、YC 中國創始人及 CEO、百度集團副董事長陸奇等 14 位來自產業界的大咖進行授課，AI 前線作爲獨家合作媒體將全程跟進並對北大這 14 場公開課進行整理，敬請關注！

課程導師：雷鳴， 天使投資人，百度創始七劍客之一，酷我音樂創始人，北大信科人工智能創新中心主任，2000 年獲得北京大學計算機碩士學位，2005 年獲得斯坦福商學院 MBA 學位。

特邀講師：顏水成，360集團副總裁，360人工智能研究院院長，IEEE Fellow、IAPR Fellow 及 ACM 傑出科學家。他的主要研究領域是計算機視覺、機器學習與多媒體分析，發表600+篇高質量學術論文，論文引用過4萬次，H-index 94。2014、2015、 2016 、2018四次入選全球高引用學者 (TR Highly-cited researchers )。

北大AI公開課第六講回顧：《微軟亞洲研究院周明：NLP進步將如何改變搜索體驗》

以下爲AI前線獨家整理的顏水成老師課程內容（略有刪減）

對AI領域的觀察

今天的分享主要分爲兩部分。

首先，作爲一個AI領域的觀察者，我想談談在學術界、工業界和創業的團隊裏，發生了一些什麼事情，以及我個人對這些事情的一些看法；另外，作爲一個AI實踐者，我想爲大家分享一下360在大安全概念的指引下，AI發展的走勢和進展。

在過去的將近一年多的時間裏面，我覺得有兩件事情對AI的影響是非常大的。

第一件事情是，在去年年初的時候，區塊鏈和比特幣爆發的時間點，很多VC（風投）突然一下，好像對人工智能喪失了興趣，把精力和投資的慾望完全轉向了區塊鏈，就像上面左側這張圖描述的那樣。當然，這件事情也不完全是壞事，有一個好處是：大家對區塊鏈和比特幣有了更清楚的認識。

另一件事情發生之後，AI又漸漸地開始回暖。今年，深度學習的三架馬車：Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun，拿到圖靈獎之後，又爲AI注入了一個強心針，大家有更強烈的熱情去推動AI往前發展。

在學術界，我第一個觀察到的是什麼呢？大家可以看到，AI的論文的數目已經完全超越了所有學者能夠閱讀的極限。今年恰好我是ICCV、CVPR、AAAI和IJCAL四個會議的area chair。其中，AAAI已經結束了，收到投稿量是7095篇，接收了1150篇；CVPR是在2月底開的這個area chair Meeting，收到了5100多篇論文，接收了1300篇，ICCV和IJCAL還在審稿當中，分別至少有四千多篇的投稿。

過去我們參加一個會議，基本上利用四天左右的時間掃一遍會上感興趣的文章，是完全沒有問題的。但是現在每天發表的論文的速度，讓學者完全沒有時間去把它進行通讀，這對於學者來說是一個非常大的挑戰。很多人也希望利用AI來進行輔助，篩選自己感興趣的AI論文，以利於我們能夠更好學習AI。

有一個人利用業餘時間寫了一個叫Arxiv Sanity Preserver，希望用人工智能的方法，把讀者感興趣的論文給篩選出來，同時可以相應的去推薦一些用戶可能會感興趣論文，非常像信息流的推薦系統。我覺得如果AI能夠幫助我們更好的讀AI論文，也是一個非常有趣的事情。

第二個觀察是，門派已經逐漸消失了。以計算機視覺爲例，我在讀書的時候，有Adaboost派、有Deformable Model派、有特徵設計派，也有理論功底比較深的And-Or Graph派，但現在已經完全改變了，全民都想只用一招，就是Hinton的深度學習。

第三個觀察到的現象是，現在論文的影響力出現了資源Biased的現象。什麼意思呢？像Google、Facebook、微軟這樣的大公司，也包括國內BAT這樣的公司，要寫一篇好的論文，可以調用的GPU的數量可能是成百的，甚至更多，但是在高校裏面，一般一個學生只能分到一塊到兩塊GPU，情況好點的話，也許有八塊GPU可以去做一篇論文。

可以看到，最近發表的這些原創的有影響力的論文，它使用的GPU的資源是非常令人驚訝的，比如谷歌這篇NASNet的論文，它花了83個GPU-Days；另外一篇Facebook的論文，用了 7382 個 GPU-Days，這在學校裏面是基本上不可能做到的事情；前不久發佈的BERT，用了256個TPU-Days。

大家可以看到，這些工作確確實實都開創了一個新的時代，或者說一個新的方向，都非常有價值，但這些工作從某種意義上來說，已經是學術界沒有辦法去做的了。這個情況對於學校的研究者，以及AI研究公平性方面要引起反思，當然我們不能說它好或不好，但是事情都已經發生了，我們大家還是需要注意的。

第四個觀察是，在近一年時間裏出現的重要的進展，它們的落地性還不是特別的好，所以我們用了一個詞叫：讓子彈再飛一會。比如今年的BigGAN和StarGAN，它的效果是確實非常好，但是我們也沒有想清楚這個東西到底可用來幹什麼，到底有什麼樣的商業場景。

這可能是在接下來的一年或者更長的時間裏面大家所需要思考的，比如今天的BERT效果非常的好，但是它的功耗實在太大了，還暫時沒有辦法直接在產品中使用，怎麼樣去降低功耗，讓BERT模型仍然能夠達到比較好的效果，是需要進一步往前推進的事情。

另外一個就是強化學習。Big GAN花了很多的人力在做這個方向的研究，但其實，GAN在其他場景的價值，還沒有得到充分的彰顯。我們也曾經嘗試，讓它去解決比如像廣告推薦、金融風控等方面的問題，但是後來跟其他的公司進行探討的時候，我們發現強化學習在其中發揮的價值還是非常的小。這些東西都非常有價值，但是在實際的商業場景中，可能還需要讓子彈再飛一會，或許還需要更長的時間，才能讓它發揮出價值來。

另外一個觀察是，在端上的高效的模型已經成爲熱點，而且是剛需。也就是說，現在深度學習已經從“可以用”時代逐步進入到“用的起”時代了。所以在過去這一年裏，大家可以看到有非常多的相關工作和研究在進行，比如：怎麼把硬件的特性考慮進去，可以讓模型在端上能夠有實時性？

學術研究 VS 工業研發

從學術界的角度來看，我們基本的目標是希望能有一些優質的論文發表，能在比賽上獲得更好的成績。我認爲在學術界的研究更像是一種個人的衝鋒戰，但是到了工業界之後，特別是成熟的公司，他們的目標不只是做算法研究，或者說純粹的發表論文，而是需要把技術放在一個閉環裏面。

現在工業研發中，有兩個維度非常重要，一個是價值閉環，一個是數據閉環。

“價值閉環”我第一次看到是在《創新者的窘境》這本書裏面，它在裏面講了四個緯度：技術、產品、客戶和體驗。爲什麼有一些好的技術，在傳統的大企業裏面，反而落地非常困難？一個主要的原因是：技術雖然能夠帶來價值的增加，但是對於消費者、銷售商、客戶或者企業，如果有一方的利益沒有增加，那他就沒有動力去利用這項新技術。所以一定要把技術放在一個閉環裏，讓閉環裏每個維度的人都感受到價值的增加，這樣的話，纔有可能讓一項技術在傳統的企業裏被大量的採用。但這是非常困難的。

而據我們的觀察，最近很多的互聯網的產品，除了這四個緯度之外，還有一個維度也變得非常重要，就是社會價值觀。當有一個產品的社會價值觀沒有起到正向的推動作用，往往這個產品也很可能會走向失敗。

在閉環中，企業、技術、產品、客戶、價值觀，他們之間是相互依存的。我舉一個例子來說明。

首先我們肯定是通過技術創新來孵化新的產品，但是我們會在真實產品中，去收集有效的數據，用這些數據來迭代和優化我們的技術，最終技術又進一步的提升產品的體驗。

我們來看看用戶的feedback會對我們的產品產生什麼樣的有意義的價值。

我們360做了一個掃地機器人，掃地機器人純粹依靠傳感器來轉向有時候不是那麼精確，有時候需要依靠碰撞的方式來確定是不是到邊界了。我們其實一開始並沒有在機器人外面做緩衝裝置，而是有個用戶，他自己在掃地機器人上面加裝了這個東西，這樣的話，當機器人碰到一些比較脆弱的，或者比較珍貴的傢俱的時候，就起到了一個很好的保護作用。

這些東西在公司裏面，可能很少有人會這麼去想，但是我們有這麼多的用戶，用戶會根據他真實碰到的問題，有些時候會產生一些非常創新的想法，這個想法返回到我們企業裏，有可能會給我們的產品帶來進一步的改良和優化。

第二，數據閉環。這其實是非常重要的，特別是對算法來說，我們一定要建立起數據閉環。我們一般會專注在算法模型的部分。算法模型和產品本身產生的這個數據，以及用戶在使用過程中產生的各種交互的數據，要把它形成一個閉環。

比如：算法模型爲智能產品提供一個功能，同時智能產品又爲用戶提供服務，用戶在使用過程中，又會有很多反饋信息，它們合在一起，形成一個閉環，這個閉環是我們發現問題、解決問題和不斷的去迭代產品的一個過程。

以360的一款門鈴產品爲例，這款產品有人臉識別，或者人形檢測等等功能，這項功能部署在雲端或者本地端，產品就會進行實時的分析，而這些分析的結果，就會發送到用戶的手機上，用戶在使用手機的時候，可能一開始並不知道是哪些人，但是收集到的數據比較多之後，系統就會把人聚堆，用戶也可以對某個人進行標註，系統也可能會幫用戶把標註內容分成幾個小的聚堆。這些信息反饋回來之後，我們可以用這些數據去進一步提升人臉識別，或者人形識別的精確度。

那麼爲什麼要建立一個閉環呢？我覺得一個核心是：因爲AI沒有完美的算法，比如設計一個人臉識別的算法，並不一定在所有場景都能取得很好的效果。至於爲什麼人臉識別的一些公司能存活下來？我認爲主要原因是：每家公司都在特定的一些場景下，有自己的數據優勢，可能在某個場景下，A公司能一統天下，別的公司就沒有辦法能夠進來。

另外，特定場景的數據，還可以不斷的優化算法。最關鍵一點：產品算法模型的優劣並不是產品成敗的直接決定因素，產品的設計、用戶交互的友好性等等都要不斷的考慮進去。這些因素可以在用戶的反饋和數據的生成過程當中逐步得到，最後能形成一個非常有競爭力的產品出來。

對於學術界研究和工業界研發的差別我有一個小的總結：我認爲學術界更像是兩個人在談戀愛，工業界更像是結婚後的男女。

如何理解呢？學術界的研究，每天一點點的進步都會讓你非常的開心，比如你有一個idea，發表了一篇論文，同時還希望達到新的境界，希望發一堆論文出來，看到的全是好的一面，而且你可以自由的憧憬，爲什麼？因爲暫時沒有人催你生孩子（產品），你可以夢想如果我用這些技術打造出一個產品會多麼的美好，而且你會認爲這個產品一定會是世界上最好的產品，因爲反正你不用真的把這個孩子給生出來。這就是學術界的情況。

但是到了工業界，更像是結婚後的男女，你發現生孩子（產品）成了你最首要的任務，因爲你的老闆天天會催着你生孩子。你以爲生出來的孩子很乖巧，特別是剛從學術界出來的時候，會認爲我做出來的產品肯定是世界上最好的，但是來到工業界之後，你會發現一堆的問題，一堆的毛病，有很多問題你之前根本沒有想過，比如供應鏈、銷售等等，有各種各樣的問題，都是你沒有想到的。以前你不關心的因素，後來成爲了最關鍵的因素。

用戶不喜歡產品，你就要不停的根據經驗和用戶反饋來調整，最後這個產品越來越好了，你的頭髮也白了，身體也壞了，但是看着自己的孩子還是一臉的幸福。這確實是學術界和工業界的差別。

成熟企業 VS 創業公司

我覺得創業公司，其實有些相似性，特別在技術的維度。所以我把關於初創企業的一些觀察，和成熟企業的觀察就放在一起了。

首先對於初創公司來說，AI不是一個最終的產品，它必須要跟具體的場景和業務相結合才有價值。我們總是要明白，AI只是在一個閉環裏面的一個子鏈條或者一個加速器，它並不能算是一個產品。

比如做一個智能硬件，除了算法之外還有產品的工程化、設計、市場銷售、服務器，還要考慮AI的硬件化，讓它能夠更加的高效。但是我們往往更沒有想到的是供應鏈和售後到底會發生什麼事情。這些是我們剛開始不會想事情。

第二點，我們要承認AI技術已經不是孤品了，它已經不存在什麼真正意義上的必殺技。我在觀察的時候，突然想起我看過的《馬達加斯加》，感覺非常形象：在紐約時代，這匹斑馬就是一個孤品，因爲沒有別的同類，它所會的一切技能就是必殺技；但是當他回到草原的時候發現不是這樣了，其他的同類也都會同樣的技能。這段視頻非常好的描述了當前的AI的狀況，AI技術已經不再是孤品，那麼大家也不必幻想AI存在必殺技。我們現在更多的需要考慮，AI怎麼樣能跟商業閉環融合在一起，逐步形成它的壁壘。

另外，AI是沒有完美的算法的，但是我們又希望有毫無瑕疵的用戶體驗。去年我也分享過，想做一款好的產品，純粹的算法科學家是不夠的，你需要有產品的工程師來幫助你去用不完美的算法，產生無瑕疵的用戶體驗。

舉個例子，比如說你有人臉方面的各種技術，如果你只是想用它換臉肯定效果不行，但是如果你想用它來，在人臉上加上一些裝飾，就能做得非常好，而且效果也會非常的不錯。

另外一方面，如果AI沒有完美的算法，那麼人機協同，或者人在閉環，往往也有一些商業模式能夠建立起來。一般的做法是：先人在閉環，再逐漸的AI化。

舉個例子，我原來在新加坡的時候去評測過的一家叫TRAX的公司，這是一家以色列的公司，它所做的工作是識別貨架上的商品，而且要識別到子類，同樣是洗髮水，它要知道洗髮水的尺寸等等。

它的動機是什麼呢？商場裏面每年有大量的商品，由於樣式太多，人工沒有辦法去實時監督商品數量，導致每年損失高達五百多億美金；另外，貨架上的商品怎麼樣擺放，也是有嚴格要求的，如何擺放才能讓客戶去購買的可能性最大。

這家公司通過攝像頭，去自對識別貨架上商品的量有多少，以及它的位置是什麼樣的。有一些供應商，爲了能夠得到這個數據是願意付費的，因爲他們會經常派人，去不同的超市商店裏檢查自家產品的擺放等等，這個工作人工的成本非常高，如果能把它自動化，一些公司肯定是非常願意的。

但是目前物體識別的精度只有96%，怎麼辦？這家公司就在印度和馬來西亞，召集了一批實時調度人員，先用自動算法做分析，再用人工來進行修正，通過人機協同的方式，運行起來了這樣的商業模式。隨着數據收集越來越多，它的精度可以逐步的提升，人工校對的人數也會隨之減少。

所以，人機協同也是解決人工智能算法不完美的一種很好的方法。

另外，現在大家都在想，還有沒有新的元素，能夠去推進AI技術往前走？我個人覺得，5G和AI芯片應該是AI兩個巨大的推動力。

首先，5G的下載速度快，據說能達到一秒鐘下載1.7G的數據；第二個特點是高接入量，5G的設備的數量，可能是現在的幾十倍，或者更多；另外很重要的一點是低時延。

有了這些特性之後，比如在VR領域，如果帶寬提升了，那麼用戶的體驗就會變得更好；此外，高接入量對IOT有非常大的幫助；至於低時延，對於AI和自動駕駛是非常有價值的，因爲自動駕駛車輛的設備，以及車和車之間的連接都需要具備低時延的特點。5G對於這些場景的落地有非常好的推動作用。

而AI芯片最大的好處是什麼呢？如果IOT設備的計算全部靠雲端的話，那麼在時延和隱私性方面可能會不那麼好，如果端上智能設備的算力足夠，比如家裏的攝像頭，那麼就可以把圖像通過本地進行處理，不需要上傳到雲端。

如果把對於學術界、成熟的企業和初創企業的這些觀察總結起來的話，大家可以看到，對AI不只是去討論它的三要素，也不只是說AI要落地，而是說現在大家已經開始要關心return or investment（投資與回報），AI也真的開始迴歸商業的本質，跟之前的互聯網、移動互聯網時代一樣，商業回報是大家最關心的問題。

以上是我過去大概一年多的時間裏面的一些觀察。

大安全下的人工智能

接下來，我跟大家分享一下，360在過去一年裏面，AI的佈局和進展是什麼樣的。

大安全與安全大腦

360去年明確提出來一個“大安全”的概念。其核心思想是：安全已經不只是侷限在網絡空間裏面的信息安全，攻擊也不只發生在網絡空間，由於智能的控制的發展，原本存在於網絡空間的攻擊已經對物理世界產生了危害。

所以，安全公司希望的是，給大家提供一種安全感，包括安全、安心、安康等多個維度。

在此基礎之上，360人工智能的佈局主要分成兩個部分。

現在360的業務佈局叫“一體兩翼”。“一體”是核心安全，就是傳統的安全業務；“兩翼”一個是IOT業務，一個是互聯網業務，比如360的搜索引擎、瀏覽器、信息流等業務。

一方面，360去年提出了360的安全大腦，希望用人工智能和大數據的技術，去打造分佈式的智能安全器，其主要目的是防禦網絡的攻擊；另外一方面，是基於360的人工智能的平臺打造四個引擎，分別是運動引擎、交互引擎、視覺引擎和決策引擎。這四個引擎一個方面是支撐IOT業務所需要的智能分析能力，同時還可以支持互聯網的業務，因爲這裏有一些比較難的問題，或者可以進一步提升的問題，希望能夠通過決策引擎去支持。

安全大腦的提出，是因爲攻防的嚴重的不對等。防禦方面，我們對網絡所有的可能性，所有的地方都要防範；但是進攻的話，只要找到一點漏洞，就能攻進去。那麼在這個時候，就會產生攻防的嚴重的不對等。

比如說在安全領域，每年都會有一個事故數據泄露調查報告，他們發現：黑客要進行攻擊的話，如果初步得手，則需要跟蹤，開始有泄露，也需要跟蹤，但是網絡安全人員要發現這個數據泄露了，他需要有足夠的時間去啓動跟蹤環節措施，這是一個非常漫長的過程。

從這裏可以看得到：攻擊很快，防守很慢，防守環節也很慢。與此同時，網絡攻擊也越來越自動化和智能化，防守能用AI，攻擊當然也能用AI。這時候就意味着我們需要對安全的響應速度比以前更快，也就需要大量技術嫺熟的網絡安全人員。

但是事實上，中國的網絡安全人員是嚴重的缺乏，所以360希望是把多年積累的網絡安全能力，形成感知學習推理決策和預測的能力，希望能爲有安全需求的場景提供一站式的服務。

首先這是一個人機協同的系統，爲什麼？因爲AI再怎麼強，很多的場景還是需要白帽子，而且很多時候，AI的價值是協助白帽子發現其中的問題。同時，它也是一個開放的生態，360的網絡安全人員目前不能解決所有問題，我們希望接入第三方的能力和速度，讓安全大腦變成一個分佈式的協同作戰的武器。

此外，要把這些能力開放給第三方，讓它有能力去沉積一些和安全相關的國家和企業的項目。在2018年的上半年，360的安全大腦，攔截的惡意的程序就有396億次，攔截釣魚攻擊200多億次，攔截垃圾短信48億條，攔截騷擾電話接近200億次。

半年的時間，可以看到它所涉及到的面和量都是非常巨大的。

四個AI引擎

下面主要來給大家分享四個AI的引擎。

第一個引擎叫交互引擎。以360兒童手錶爲例，小孩需要跟手錶利用語音交互通話，後臺就需要有一個用於交互的引擎，同時360今年剛發佈的AI音箱也是通過這個交互引擎來提供人機交互的能力，這個引擎叫做NXOS。

第二個引擎叫運動引擎。這個引擎主要是希望智能硬件能夠自主和安全的運行，現在主要是在支持360的掃地機器人。

第三個視覺引擎算是360的強項，主要是希望對家庭還有小區的安防提供統一的解決方案。

第四個引擎叫決策引擎，依靠的是data intelligence（數據智能），希望用360積累的大數據對未來的趨勢進行智能的判斷，用來做大數據的風控和廣告，還有信息流、短視頻的智能的推薦。

總結

最後做一個小的總結。

我覺得從學術界、成熟企業以及初創企業的觀察來看，大家不再只是考慮AI長遠的落地，更加關注AI的ROI，也就是說，AI正在迴歸它的商業本質了，這個是遲早的事情。

那麼在實踐的維度，360在大安全的指導下，用360的安全大腦來支撐360的網絡安全，用四大人工智能引擎去支撐360的IOT業務，和互聯網業務。

同時我覺得因爲三架馬車獲得了圖靈獎，在接下來的兩年，甚至更長的時間裏面，跟AI相關的行業應該會繼續具有強大的生命力，謝謝大家。

問答環節

雷鳴：對於GAN、強化學習和BERT，你覺得未來會有一些什麼樣的突破，以及這個突破會帶來什麼樣的一些商業機會呢？

顏水成：我覺得GAN，應該對於圖像和視頻的生成，肯定會有很多的迴應的點。打個比方，你在社交媒體裏面想用一個頭像，現在網上直接下載的圖像很多都有版權的問題；或者你在進行文字創作的時候，肯定會希望有一些配圖，如果你到網上去買，不一定買的到，同樣如果直接下載，那麼版權問題的風險是非常的大的。用自動生成的方式，可以讓創作產生更大的價值，而且現在有個趨勢，不只是圖像，連視頻也能生成，這樣發展的空間就更大了。當然這是指好的一面。

不好的一面就是，通過自動生成可以生成任何人，所以可能將來在網絡上看到的新聞圖片有些是自動生成的，這樣反而會帶來一些混亂。從安全的角度來說，利用AI判斷到底哪些圖片是真實的，哪些是虛假的，由此引發的相關研究也是很有前景的。

至於BERT，我個人是非常看好它的前景，但是它的訓練代價太大，最近有很多團隊在用BERT刷榜，但如果你仔細去看會發現，刷榜的人都沒有對BERT重新訓練，都是用之前訓練好的模型；當然也有一些團隊在探索，有什麼辦法能夠在真正的業務裏面用上這個模型，還需要一些時間，但前景我非常的看好。

而強化學習可能前景就更不清晰了，我們看到了它確實是解決很多的問題，比如用來做模型的生成，像GAN這樣的模型也在廣泛的使用。如果公司是用它來瞄準長期的收益，這個東西可能會是很好的，但我覺得有如果公司比較願意保障當前的收益，可能就沒有辦法立刻看到它的價值。

雷鳴：有一個觀點認爲，深度學習的發展跟算力是捆綁的，隨着算力的提升，很多問題都解決了，如果沒有算力大幅度的提升，很多問題僅靠調整模型可能是解決不了的，對於這個觀點你是怎麼看的？AI的未來真的就是暴力求解嗎？

顏水成：我的個人感覺當前確實是比較依靠算力和有效的數據，比如說，圖像和語音的問題都解決的不錯了，但爲什麼NLP問題沒能解決的特別好？我們當時有一些探討：

可以把這些問題看成不同的數據空間，比如語音更多的是一維的空間，很容易就能夠全覆蓋到；而圖像的數據空間相對語音來說會更大一些，隨着社交媒體的豐富，像ImageNet這樣的數據集也越來越多，圖像的數據空間也開始逐漸變得更加充分了；但是NLP領域，就好比要把所有的詞彙全部考慮進去，包括排列組合等等，它所擁有的空間比圖像空間更大，因此可能需要的樣本更多，如果再把多輪對話、人機交互等等問題考慮到的話，數據空間就更大了。

現當前的狀況，幾乎沒有這麼大的數據能把整個NLP空間的話有效的覆蓋，這也是爲什麼現在人機交互的過程中，機器仍然很笨的一個主要原因。假設將來收到越來越多的日常高頻的人機交互數據，你或許會發現機器人變得越來越智能。也許到將來的某個時間點，平常我們能見到的一些交互，就都不成問題了。

那麼要處理這些東西，首先算力要足夠。大家也知道之前OpenAI最新開源的模型GPT 2.0已經可以自己生成文章，這也是靠海量的數據和大量的計算資源堆出來的結果。

也許隨着數據的增加，和計算能力的增強，解決NLP問題會比以前解決的更好。但是我是覺得，可能還會有差別，至少現在與智能音箱對話的人機交互方式，跟兩個人類交流的方式還是差別很遠的，所以至少在這個維度，應該是暫時沒有辦法讓這個機器達到一個與人類接近的地步。

雷鳴：現在也出現一種叫多模態融合的方向，要理解視頻內容，還要跟自然語言有關，前段時間微軟也推出一個在圖片上，通過語言去尋找某個東西的模型，對於這個方向你是怎麼看的？

顏水成：我是比較悲觀的。大家都在講通用智能，我也有朋友是做這個方向的，比如按照某個方式去讓智能體去接觸外部環境進行學習，雖然能夠從理論上證明，最後會具備強人工智能的能力，但是我覺得還是有些弱。這類實驗也非常簡單，有點像一個非常原始的遊戲，去模擬這個過程，所以我個人覺得達到強人工智能的時間還是有些漫長。

而多模態融合現在也沒有看到特別的好的方法，之前也有一些研究想要弄明白，人類大腦的視覺和聽覺到底是如何協同工作的，但是到2017年也基本上沒有任何實時性的進展。

當時在多媒體領域，有一個很好的夢想是希望能把圖像、語音和文字，三個模態的信息能融合在一起去做一些事情，但是，如果去看這些論文，會發現其實它的融合機制還是比較簡單的，而中間是怎樣交錯，並影響到最後的結果，我覺得還缺少一層比較好的機制，現在的多模態，做得還是很簡單。至少從我自己有限的研究裏看，多模態發展需要時間還特別長。

雷鳴：你覺得在視覺上，未來有哪些產業還會落地或者發展？

顏水成：第一，我覺得教育還是一個比較重要的方向。現在的教育資源確實不夠，要麼把老師叫到你這邊來，要麼把孩子送到補習的地方去，可是有個現實問題，路上交通的時間成本太高了。我是覺得從視覺角度來說，通過基於視覺的交互，可以完成比如作業的批改，或者是在學習過程中，利用視覺技術分析孩子當前學習的狀態等等。

另外由於5G的出現，一定會有新的內容產生出來，用視覺的方法去幫助用戶產生適合在5G形態上的內容，肯定會催生很多新的公司。當然不僅僅是我們現在見到的短視頻產品，可能會是別的視頻產品，這塊是視覺比較強的地方。

雷鳴：你對自動駕駛是怎麼看待的，是偏樂觀一點的觀點，還是偏悲觀的？

顏水：我有一個觀點是，希望做任何事情，經常有階段性產品出來。但是自動駕駛的話感覺，在我看來是比較難有階段性產品出現。因爲我是從學術界來到工業界，所以我內心還是希望比較快速能看到一些有效的項目出現。另外，自動駕駛的週期比我們想象的要長，今年很明顯，大家開始比較少的去談一些L4或者L5的產品，開始想要在一些受限場景下嘗試產品的落地了。但是我個人還是覺得這個方向是非常這個值得投入，也是未來應該關注的一個方向，也許需要更多的年輕人做這個事情。

下期預告

4 月 17 日週三晚 18:40，北京大學“人工智能前沿與產業趨勢”第八講，將由好未來AI業務負責人楊松帆爲大家授課。

感興趣的小夥伴可以添加 AI 前線編輯微信：caifangfang842852，備註“北大聽課 + 公司名稱 + 職位 or 學校 + 專業”，通過後可進入課程活動羣，第一時間獲取直播鏈接、視頻回放、課程內容整理、北大 AI 公開課系列課程信息，以及與其他小夥伴互動交流。
祝大家聽課愉快~

學習資料

點擊“閱讀原文”，即可觀看本期公開課視頻。

在 AI 前線微信公衆號（ID：ai-front）後臺回覆關鍵詞“北大 AI 公開課”，可獲取往期課程文字材料 + 視頻回顧等學習資料。

最受歡迎北大AI公開課！360集團顏水成：人工智能行業觀察與實踐

對AI領域的觀察

學術研究 VS 工業研發

成熟企業 VS 創業公司

大安全下的人工智能

大安全與安全大腦

四個AI引擎

總結

問答環節

下期預告

學習資料

Android啓動過程-萬字長文(Android14)

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

Using NAnt to Build .NET Projects

廣告做到留言裏面去了！！

外網訪問SharePoint2003

腦機接口重大突破！華裔科學家首次用AI直接從大腦合成語音

最受歡迎北大AI公開課！360集團顏水成：人工智能行業觀察與實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結