百度首席科學家吳恩達：人工智能

過去很多溝通都是通過文字，而如今，在移動互聯網領域，溝通已經改變成了圖像和語音。吳恩達表示現在的電腦技術已具備自動識別並描述圖片內容等感知能力，但還遠遠不到擔憂機器具備自我感知甚至“邪惡”的時候。

【鈦媒編輯/宋長樂】近日，在硅谷召開的百度Big Talk大會上，百度首席科學家吳恩達發表了《人工智能和深度學習》的主題演講。整個演講，他主要圍繞兩個問題展開：

1、什麼是和什麼不是深度學習，這樣的技術是什麼

2、思考公司、學校、企業是否要做深度學習的技術

吳恩達回憶道，過去很多溝通都是通過文字，過去十年間網頁就是一堆文字。而如今，尤其在移動互聯網領域，溝通已經改變成了圖像和語音。

他表示神經元網絡的技術很有前景，人腦的工作被激發開來，因此模擬神經元的信號，用算法讓他更具有智能。而電腦視覺是深度學習帶來的革命。爲什麼深度學習，也就是神經網絡如今有迅猛的發展？這就是之所以建立了有效的深度學習的算法，改變整個人工智能的方法。

回到七年前，電腦還很難準確識別一副圖像中的咖啡杯。但是隨着人工智能、深度學習等技術的發展，目前的技術已經能讓電腦理解圖片。與此同時，在吳恩達的設想中，未來語音識別會給互聯網、物聯網帶來巨大變革，用戶和家電之間甚至能夠通過對話進行溝通。

吳恩達還提到，現在的電腦技術已具備自動識別並描述圖片內容等感知能力，但還遠遠不到擔憂機器具備自我感知甚至“邪惡”的時候。在過去有很多人提到了邪惡的機器人，有些人在擔心機器人可能會帶來負面影響。

對於這個話題，吳恩達說自己還不知道如何製造出擁有自我感知的機器人，但是他明確的表示對於人工智能的負面擔心，他覺得是毫無必要的炒作。

以下爲吳恩達演講全文，經鈦媒編輯：

非常高興大家可以在硅谷相聚，在過去幾年有一種人工智能已經開始起飛了，對硅谷有很大的衝擊，就像Jason所講，今天你會聽到人工智能如何衝擊並改變醫療保險、教育和其他領域。

這裏面有很多種操作，今天我想和大家分享兩件事情，第一件，什麼是和什麼不是深度學習，在二十分鐘的時間裏面我們希望可以讓你知道這樣的技術是什麼。第二點，對於在領先機構裏面的你們，你們能夠在策略上思考這些機構——公司、學校、企業是否要做深度學習的技術。

多年以來，我們一直有這樣的創意，就是人工智能的虛擬圈，比如做一個很好的產品，可以得到很多很好的用戶，這些用戶可以提供很多的數據。最後，用人工智能就可以讓很多的產品越來越好，讓你得到越來越多的用戶，如此產生人工智能的良性循環。但是這樣的理念根本沒有成功，在這幅拼圖裏面所缺失的最大一環，就是人工智能。來看早一代的人工智能算法，即使有很多的數據支持，但是表現功能不會越來越好，在我腦中有一個非常基本的原因。爲什麼深度學習衝擊世界，因爲我們都可以測量算法，所以在大數據裏面，新的人工智能的算法越來越好，我們可以第一次在整個虛擬圈裏完成整個循環。

過去時間，很多溝通都是通過文字，過去十年間網頁就是一堆文字。如今在百度，我們看到，特別是在移動互聯網領域，溝通已經改變成爲了圖像和語音。百度已經經歷改變十五年了，現在就要跟大家分享在圖像語音方面的機會。因爲在互聯網上的溝通，提供更好的服務，給各國和全世界使用。現在談談百度如何理解圖像和語音。

七年前，在斯坦福，我讓我的學生寫程序識別咖啡杯的圖像，他們用了當時最好的圖像和算法，這就是他們得到的結果。他們發現到處都是咖啡杯，爲什麼識別咖啡杯這麼困難？當我們放大以後繼續來看。把他當成紅的方塊。電腦的問題就是看到這些數據，色素的強度，告訴我們這些數據定義了咖啡杯，所以長久以來這是在電腦圖像方面不足的地方。

神經元網絡的技術很有前景，人腦的工作被激發開來，因此模擬神經元的信號，用算法讓他更具有智能。在深度學習，剛纔講的熱磁，來模擬人腦，很多研究人員想用這個熱磁。可是神經學家知道根本不可能知道人腦如何工作。我的朋友開玩笑說，神經網絡好像用卡通畫腦子。過度簡單的用卡通描述腦子，因此對大腦不是非常瞭解。

這些程序可以瞭解這些物體，能做的就是說照張相，給神經網絡很多數據，很多咖啡杯圖像，可以來學習，可以來說這是咖啡杯。這只是識別咖啡杯，是個相對容易，但是計算機視覺比這個要複雜得多，但我們看這個圖像，看到很多東西。如果要給很多註解的話，你就說，黃色大巴開在路上，右邊的畫，你就說，一間起居室，很多陽光照進來，而你寫這個註解的能力，就是對這個圖像的深度理解。那麼，可不可以讓電腦理解圖片和我們做的一樣？如果要讓你用中文來註解這張圖片，同樣，你就看這個圖片，說，這個棒球運動員準備擊球，一個人在衝浪，一個車停在現場。

所以，電腦是否可以理解圖像，好像我們有這個能力寫註解。所以我給你們一個驚喜，這個字幕不是人寫出來的，是電腦寫的，百度是第一個用神經網絡技術寫的。現在還有其他好多公司來尾隨我們。所以我們今天在的位置在哪裏呢？在計算機視覺我們已經建立了一個很好的技術來建立圖像。我們在對美國聽衆展示用中文寫的字幕。既然已經有非常複雜的電腦技術，現在就是應用是什麼。

電腦可以瞭解在過去五年有長足的發展。應用是什麼？醫學影像，圖像的搜尋，買什麼衣服，百度還有其他公司有這樣的計算機視覺技術，嘗試產品和技術，今天也不知道最好的應用是什麼，未來幾年會改變這方面的情況。

所以，電腦視覺是深度學習帶來的革命。爲什麼深度學習，也就是神經網絡如今有迅猛的發展？這就是我們來建立了有效的深度學習的算法，改變整個人工智能的方法。舉個例子。建造火箭，需要兩個部分組成，很大的引擎，很多燃料，好像宇宙火箭，如果有很大的引擎，很少的燃料，這是無法工作的，反之亦然。所以需要有一個很大的引擎和很多的燃料纔行的通，算法的時候也是，建立一個很大很大的神經網絡。另外數據就是燃料，在整個人類社會的數據化，可以看到很多以前拿不到的數據。這就是很大的可以騰飛的火箭。因此未來的最近今年的深度學習就是讓火箭可以騰飛。

大概是2010，五年前，最大的神經網絡有一千萬的連接點，幾年後我就開始了在google雲項目，用一千個電腦建立的一億個神經元的網絡，這其實爲深度學習帶來很大進展。後來我意識到這是一個非常昂貴的技術，有朋友就意識到用不同的技術，用其他gpu技術，在電腦裏面處理訊息圖像的技術可以建立這樣的神經網絡，用大的引擎飛火箭。比過去還大十倍。今天在百度，硅谷或中國建立了巨大的神經網絡。代表百度來講，我們是第一個建立深度學習的網絡，這就是火箭引擎，現在有很多公司步我們後塵。

現在舉個實例，深度學習如何瞭解互聯網。今天百度很多用戶是用語音搜索，很多太年幼的用戶，也有很多年齡大的用戶，或文化程度不高的用戶，無法用拼音搜索。對於他們，用語音搜索是唯一的方式可以讓我們知道他們的需求。如果在安靜的環境中，手機可以識別你的語音。如果在嘈雜的環境中，比如車裏或者餐廳中，識別就不是很好，我們要想辦法解決這個問題。

傳統的方式是工程師要寫軟件，分解成小的軟件來解決這個問題。我們要不要換一個角度，爲語音識別建立一個火箭發動機一樣的流程。一般來說最大的語音識別的數據是需要兩千小時的數據，我們要利用七千小時的語音數據來，燃料多三倍。我們後來又說從這七千小時語音數據來總結出十萬多個小時的數據，通過這些數據，可以建立矩陣，跟其他的語音識別系統，比別的api都好很多。在比較小的時間當中，建立出體系。在嘈雜的環境中也表現的比較好。祕訣就是我們有很大的引擎和很多的燃料。

爲什麼要說這個？市場上有很多的產品，但是語音會是一個改革互聯網很大的因素。在這個方面，中國其實領先於美國和其他國家很多，特別是在移動互聯網方面。我們花很多時間在智能手機上，用打字的方式溝通，即使在嘈雜的環境中用語音溝通，可以通過講話就可以給另一半發消息，如果語音識別繼續改進的話，以後這個技術可能改變我們的生活。

此外，語音識別也會對互聯網，家用電器帶來很大的改革。我有五個遙控器，如果我可以用講話控制的話就完美了。我現在還沒有下一代，但是我希望有一天我的兒子或孫子一輩，可以問我在我小時候你跟你的微波爐講話卻沒有反應這是真的嗎？太不禮貌了。未來語音識別會對我們的技術帶來翻天覆地的變化。

現在圍繞互聯網有很多變化，因爲現在有很多的數據圍繞着語音，如果有很大的引擎很多的燃料，通過深度學習可以深入瞭解解決這些問題，可以改變我們使用技術的方式，也可以帶來其他領域，如金融這些方面的變化。你們可以看出來我非常興奮，另外還有炒作的因素，在過去有很多人提到了邪惡的機器人，有些人在擔心機器人可能會帶來負面影響。

其實我們現在掌握的技術是非常好的，我個人還不知道怎麼建造出有自我感知的機器人。當然，我對於技術是很有激情的，我相信會改變我們的生活，給成千上萬人的生活帶來變化。有些炒作或擔心我覺得沒有必要。非常感謝。

（原文來自“鈦媒體”）

百度首席科學家吳恩達：人工智能

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

我做淘寶7年的工作經驗總結

更新Xcode後Git和命令行SVN不能啓動的問題

iOS提交發布應用(Xcode5)到App Store 詳細解析

iOS各種推送SDK集合

Xcode6.1調試的時候有時參數總爲nil

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結