學習了整個互聯網數據的AI會有多“可怕”？

原創

读芯术

2020-04-26 00:48

全文共1781字，預計學習時長6分鐘

圖源：unsplash

數據對於機器學習的重要性不必多言，如果說人工智能是大腦的話，那麼數據就是血液，它能做出什麼樣的成果關鍵在於從數據中發現了什麼樣的價值。

我最近正在研究如何編寫一個遞歸神經網絡來重寫其代碼。該想法想要訓練RNN完成，然後使用並運行它生成的代碼(當然要進行句法檢查)。RNN生成的代碼將用於生成更多代碼，以生成更多RNN，以此類推，每一代RNN都會對下一代進行編碼。

這個想法令我興奮不已。通過訓練來提高改善自身的人工智能將必然這樣做，對嗎？

但存在一個問題——數據在何處？

任何曾訓練過機器學習模型的人都知道，模型的性能在很大程度上依賴於其被訓練的數據。好數據優於好模型，它定義了模型的範圍。

模型的目標是遍歷數據域，根據算法列出的規則尋找某種模式，以便將錯誤最小化。無論模型有多好，總會受到其數據域的限制。

在嘗試訓練模型時，我一直試圖爲其尋找數據。我是否會爲它提供各種遞歸神經網絡架構，促使它可以編寫出效率極高的架構？在那種情況下，我又如何期望神經網絡能夠高效編寫出新代碼呢？

最好的情況是，遞歸神經網絡不會出現句法錯誤（可能是因爲它會太適合訓練數據了）。如若只是給人工智能填鴨式地灌輸我們想要其編寫的代碼，那麼訓練其自行編寫代碼的意義何在呢？它不會輸出任何有效句法內容，這些內容纔將執行着真正“智能”的操作，如加載新庫或開發自己的語言。

圖源：unsplash

事實上，這並不是人類擅長的事情。人類之所以聰明，僅是因爲我們接觸了更多的數據；但同時，數據也在限制我們。如果你在美國生活，可能會對中國的生活一無所知，除非你去過中國（收集過數據）。

從小世界就在給你提供數據，這遠高於我們提供給機器學習模型的數據。這是智能唯一的侷限性，雖然也許計算機可以存儲數據，但我們確實也有足夠的存儲來完成我將要描述的基本操作。如果你只接觸到我們提供的有限數量的數據模型，你也不會被稱爲智能。

這就是我們尋找的應對“傻瓜”人工智能的方案：互聯網。

如今，任何人幾乎都能從網上學到東西，谷歌能將我們與充滿信息的網頁聯繫起來。人工智能的學習算法比我們的更爲高效：學習需要重複練習的事物，我們要花一分鐘，人工智能可能不到一秒。

唯一可能讓我們自稱爲“智能”的原因是我們有幸擁有更多的訓練數據。更好的數據總是勝過更好的模型，因此，我們與機器學習模型處在完全不同的維度上。

圖源：unsplash

如果向人工智能開放互聯網，即讓它在互聯網上漫遊，學習其所有內容，那麼機器學習可能擁有遠超人類的“智能”。

它甚至可以把“我爲什麼在這裏”、“我的目的是什麼”之類的內容打印到控制檯，這也許是它從一些心理學網站上學來的。但你無權否認其可信度，因爲從技術層面講，它是原創的。

那些說機器“吐”出來的東西不可能是真正原創的人，我用艾倫·圖靈對數學家艾達·拉夫萊斯的同樣指責迴應:“太陽底下沒有‘原創’。”

你提出的想法一點也不新穎，它們只是你的經驗、訓練數據和一些噪音的組合產物。如果機器和人接受相同數據的訓練，那麼機器與你我所能產生的結果相同。事實上，機器可能會產生更令人滿意和更爲迅速的結果，因爲它的學習方法比我們快得多。

即使是一個新生兒和一個空白的人工智能在不同的數據上訓練，通過不同過程來獲得智能思維，這又有什麼關係？

如果將智能隔離，使其只包含人類的思維過程，機器將永遠不可能智能。機器不是人，但它們可以變得智能——如果我們不是將智能和意識明確地定義爲人類的過程，而是直接輸出，將之定義爲對看起來不“智能”的更有包容性的思維過程。

實現這一目標的最大問題是找到一種從互聯網上獲取數據的方法——該項目的縮小版將是訓練深度神經網絡來學習整個維基百科。該網站幾乎包含所有學科的信息，當人工智能學習這些知識時，它們可能和你我所宣稱的一樣聰明。

圖源：unsplash

一個學習了整個互聯網的人工智能將會有多厲害？它會比任何人知道的都多，比最聰明的人類更聰明。它所學習的是經過谷歌排列分類的人類經歷的集合，超人類的智能必將產生。

留言點贊關注

我們一起分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”

（添加小編微信：dxsxbb，加入讀者圈，一起討論最新鮮的人工智能科技哦～

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

學習了整個互聯網數據的AI會有多“可怕”？

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

還在“收集”證書？學好數據科學，做項目纔是第一位的

如果必須重新開始，我會怎樣開啓自己的數據科學之旅？

寫出你的第一個web app，幾行代碼就夠了

研究了500+數據科學麪試問題之後，我發現了這些規律……

質子之死：粒子衰變如何推出萬有理論

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結