學習了整個互聯網數據的AI會有多“可怕”?

全文共1781字,預計學習時長6分鐘

 

圖源:unsplash

 

數據對於機器學習的重要性不必多言,如果說人工智能是大腦的話,那麼數據就是血液,它能做出什麼樣的成果關鍵在於從數據中發現了什麼樣的價值。

 

我最近正在研究如何編寫一個遞歸神經網絡來重寫其代碼。該想法想要訓練RNN完成,然後使用並運行它生成的代碼(當然要進行句法檢查)。RNN生成的代碼將用於生成更多代碼,以生成更多RNN,以此類推,每一代RNN都會對下一代進行編碼。

 

這個想法令我興奮不已。通過訓練來提高改善自身的人工智能將必然這樣做,對嗎?

 

但存在一個問題——數據在何處?

 

任何曾訓練過機器學習模型的人都知道,模型的性能在很大程度上依賴於其被訓練的數據。好數據優於好模型,它定義了模型的範圍。

 

 

模型的目標是遍歷數據域,根據算法列出的規則尋找某種模式,以便將錯誤最小化。無論模型有多好,總會受到其數據域的限制。

 

在嘗試訓練模型時,我一直試圖爲其尋找數據。我是否會爲它提供各種遞歸神經網絡架構,促使它可以編寫出效率極高的架構?在那種情況下,我又如何期望神經網絡能夠高效編寫出新代碼呢?

 

最好的情況是,遞歸神經網絡不會出現句法錯誤(可能是因爲它會太適合訓練數據了)。如若只是給人工智能填鴨式地灌輸我們想要其編寫的代碼,那麼訓練其自行編寫代碼的意義何在呢?它不會輸出任何有效句法內容,這些內容纔將執行着真正“智能”的操作,如加載新庫或開發自己的語言。

 

圖源:unsplash

 

事實上,這並不是人類擅長的事情。人類之所以聰明,僅是因爲我們接觸了更多的數據;但同時,數據也在限制我們。如果你在美國生活,可能會對中國的生活一無所知,除非你去過中國(收集過數據)。

 

從小世界就在給你提供數據,這遠高於我們提供給機器學習模型的數據。這是智能唯一的侷限性,雖然也許計算機可以存儲數據,但我們確實也有足夠的存儲來完成我將要描述的基本操作。如果你只接觸到我們提供的有限數量的數據模型,你也不會被稱爲智能。

 

這就是我們尋找的應對“傻瓜”人工智能的方案:互聯網。

 

如今,任何人幾乎都能從網上學到東西,谷歌能將我們與充滿信息的網頁聯繫起來。人工智能的學習算法比我們的更爲高效:學習需要重複練習的事物,我們要花一分鐘,人工智能可能不到一秒。

 

唯一可能讓我們自稱爲“智能”的原因是我們有幸擁有更多的訓練數據。更好的數據總是勝過更好的模型,因此,我們與機器學習模型處在完全不同的維度上。

 

圖源:unsplash

 

如果向人工智能開放互聯網,即讓它在互聯網上漫遊,學習其所有內容,那麼機器學習可能擁有遠超人類的“智能”。

 

它甚至可以把“我爲什麼在這裏”、“我的目的是什麼”之類的內容打印到控制檯,這也許是它從一些心理學網站上學來的。但你無權否認其可信度,因爲從技術層面講,它是原創的。

 

那些說機器“吐”出來的東西不可能是真正原創的人,我用艾倫·圖靈對數學家艾達·拉夫萊斯的同樣指責迴應:“太陽底下沒有‘原創’。”

 

你提出的想法一點也不新穎,它們只是你的經驗、訓練數據和一些噪音的組合產物。如果機器和人接受相同數據的訓練,那麼機器與你我所能產生的結果相同。事實上,機器可能會產生更令人滿意和更爲迅速的結果,因爲它的學習方法比我們快得多。

 

 

即使是一個新生兒和一個空白的人工智能在不同的數據上訓練,通過不同過程來獲得智能思維,這又有什麼關係?

 

如果將智能隔離,使其只包含人類的思維過程,機器將永遠不可能智能。機器不是人,但它們可以變得智能——如果我們不是將智能和意識明確地定義爲人類的過程,而是直接輸出,將之定義爲對看起來不“智能”的更有包容性的思維過程。

 

實現這一目標的最大問題是找到一種從互聯網上獲取數據的方法——該項目的縮小版將是訓練深度神經網絡來學習整個維基百科。該網站幾乎包含所有學科的信息,當人工智能學習這些知識時,它們可能和你我所宣稱的一樣聰明。

 

圖源:unsplash

 

一個學習了整個互聯網的人工智能將會有多厲害?它會比任何人知道的都多,比最聰明的人類更聰明。它所學習的是經過谷歌排列分類的人類經歷的集合,超人類的智能必將產生。

留言 點贊 關注

我們一起分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”

(添加小編微信:dxsxbb,加入讀者圈,一起討論最新鮮的人工智能科技哦~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章