【轉】微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

原文：https://news.cnblogs.com/n/738953/

-------------------

微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

投遞人 itwriter 發佈於 2023-03-27 08:18 評論(0) 有1161人閱讀原文鏈接 [收藏] « »

　　新智元報道

　　編輯：編輯部

　　在通往 AGI 的路上我們還有多遠？微軟豪華作者團隊發佈的 154 頁論文指出，GPT-4 已經初具通用人工智能的雛形。

　　GPT-4 會演變爲通用人工智能嗎？

　　Meta 首席人工智能科學家、圖靈獎得主 Yann LeCun 對此表示質疑。

　　在他看來，大模型對於數據和算力的需求實在太大，學習效率卻不高，因此學習「世界模型」才能通往 AGI 之路。

　　不過，微軟最近發表的 154 頁論文，似乎就很打臉。

　　在這篇名爲「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中，微軟認爲，雖然還不完整，但 GPT-4 已經可以被視爲一個通用人工智能的早期版本。

　　論文地址：https://arxiv.org/pdf/2303.12712.pdf

鑑於 GPT-4 能力的廣度和深度，我們相信它應該被合理視作一個通用人工智能（AGI）系統的早期（但仍不完整）版本。本文的主要目標是對 GPT-4 的能力和侷限性進行探索，我們相信 GPT-4 的智能標誌着計算機科學及其他領域的真正範式轉變。

　　AGI 的智能體現在能夠像人類一樣思考和推理，並且還能夠涵蓋廣泛的認知技能和能力。

　　論文中，指出 AGI 具有推理、規劃、解決問題、抽象思維、理解複雜思想、快速學習和經驗學習能力。

　　從參數規模上來看，Semafor 報道稱 GPT-4 有 1 萬億個參數，是 GPT-3（1750 個參數）的 6 倍大。

　　網友用 GPT 參數規模大腦神經元做了類比：

　　GPT-3 的規模與刺蝟大腦類似（1750 億個參數）。如果 GPT-4 擁有 1 萬億個參數，我們就接近松鼠大腦的規模了。以這個速度發展下去，也許只需要幾年時間，我們就能達到並超越人類大腦的規模（170 萬億個神經元）。

　　由此看來，GPT-4 距離成爲「天網」也不遠了。

　　而這篇論文，還被扒出不少趣事。

　　論文發佈不久後，一位網友在推特上爆出從他們的 latex 源代碼中發現了隱藏信息。

　　在未刪減版的論文中，GPT-4 實際上也是該論文的隱藏第三作者，內部名稱 DV-3，後被刪除。

　　有趣的是，就連微軟研究人員對 GPT-4 的技術細節並不清楚。另外，這篇論文還刪除了 GPT-4 在沒有任何提示的情況下產生的有毒內容。

　　GPT-4 初具 AGI 雛形

　　這篇論文的研究對象，是 GPT-4 的早期版本。它還處於早期開發階段時，微軟的研究者就對它進行了各種實驗和測評。

　　在研究者看來，這個早期版本的 GPT-4，就已經是新一代 LLM 的代表，並且相較於之前的人工智能模型，展現出了更多的通用智能。

　　通過測試，微軟的研究者證實：GPT-4 不僅精通語言，還能在數學、編程、視覺、醫學、法律、心理學等多樣化和高難度的任務中表現出色，且無需特別提示。

　　令人驚奇的是，在所有這些任務中，GPT-4 的表現已經接近人類水平，並且時常超過之前的模型，比如 ChatGPT。

　　因此，研究者相信，鑑於 GPT-4 在廣度和深度上的能力，它可以被視爲通用人工智能（AGI）的早期版本。

　　那麼，它朝着更深入、更全面的 AGI 前進的路上，還有哪些挑戰呢？研究者認爲，或許需要尋求一種超越「預測下一個詞」的新範式。

　　如下關於 GPT-4 能力的測評，便是微軟研究人員給出關於 GPT-4 是 AGI 早期版本的論據。

　　多模態和跨學科能力

　　自 GPT-4 發佈後，大家對其多模態能力的印象還停留在 Greg Brockman 當時演示的視頻上。

　　這篇論文第二節中，微軟最先介紹了它的多模態能力。

　　GPT-4 不僅在文學、醫學、法律、數學、物理科學和程序設計等不同領域表現出高度熟練程度，而且它還能夠將多個領域的技能和概念統一起來，並能理解其複雜概念。

　　綜合能力

　　研究人員分別用以下 4 個示例來展示 GPT-4 在綜合能力方面的表現。

　　第一個示例中，爲了測試 GPT-4 將藝術和編程結合的能力，研究人員要求 GPT-4 生成 javascript 代碼，以生成畫家 Kandinsky 風格的隨機圖像。

　　如下爲 GPT-4 實現代碼過程：

　　在文學和數學結合上，GPT-4 能夠以莎士比亞的文學風格證明質數是無窮多的。

　　此外，研究還測試了 GPT-4 將歷史知識和物理知識結合起來的能力，通過要求其撰寫一封支持 Electron 競選美國總統的信，信是由聖雄甘地寫給他的妻子的。

　　通過提示 GPT-4 爲一個程序生成 python 代碼，該程序將患者的年齡、性別、體重、身高和血液檢測結果向量作爲輸入，並指出患者是否處於糖尿病風險增加的狀態。

　　通過測試，以上例子表明 GPT-4 不僅能夠學習不同領域和風格的一些通用原則和模式，還能以創造性的方式將其結合。

　　視覺

　　當提示 GPT-4 使用可伸縮矢量圖形（SVG）生成物體圖像，如貓、卡車或字母時，該模型生成的代碼通常會編譯成相當詳細，且可識別的圖像，如下圖：

　　然而，許多人可能會認爲 GPT-4 只是從訓練數據中複製了代碼，其中包含類似的圖像。

　　其實 GPT-4 不僅是從訓練數據中的類似示例中複製代碼，而且能夠處理真正的視覺任務，儘管只接受了文本訓練。

　　如下，提示模型通過結合字母Y、O和H的形狀來繪製一個人。

　　在生成過程中，研究人員使用 draw-line 和 draw-circle 命令創建了O、H和Y的字母，然後 GPT-4 設法將它們放置在一個看起是合理的人形圖像中。

　　儘管 GPT-4 並沒有經過關於字母形狀的認識的訓練，仍舊可以推斷出，字母Y可能看起來像一個手臂朝上的軀幹。

　　在第二次演示中，提示 GPT-4 糾正軀幹和手臂的比例，並將頭部放在中心位置。最後要求模型添加襯衫和褲子。

　　如此看來，GPT-4 從相關訓練數據中、模糊地學習到字母與一些特定形狀有關，結果還是不錯的。

　　爲了進一步測試 GPT-4 生成和操作圖像的能力，我們測試了它遵循詳細指令創建和編輯圖形的程度。這項任務不僅需要生成能力，還需要解釋性、組合性和空間性能力。

　　第一個指令是讓 GPT-4 生成 2D 圖像，prompt 爲：

　　「A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do o er low interest loans for pond upgrades」

　　通過多次嘗試，GPT-4 每一次都生成符合描述的圖像。然後，要求 GPT-4 添加更多細節來提高圖形質量，GPT-4 添加了銀行、窗戶、汽車等符合現實邏輯的物體。

　　我們的第二個示例是嘗試使用 Javascript 生成一個 3D 模型，同樣通過指令 GPT-4 完成了許多任務。

　　另外，GPT-4 在草圖生成方面，能夠結合運用 Stable Difusion 的能力。

　　下圖爲 3D 城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有 4 個按鈕，顏色分別爲綠色、藍色、棕色和紅色。生成結果如下：

　　音樂

　　研究人員要求 GPT-4 用 ABC 記譜法編碼生成和修改曲調，如下：

　　通過探究 GPT-4 在訓練中獲得了多少技能，研究人員發現 GPT-4 能夠在 ABC 記譜法中產生有效的旋律，並在一定程度上解釋和操作其中的結構。

　　然而，研究人員無法讓 GPT-4 產生任何非平凡的和聲形式，比如無法譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。

　　編程能力

　　此外，研究人員還展示了 GPT-4 能夠以非常高的水平進行編碼能力，無論是根據指令編寫代碼，還是理解現有代碼方面都展現出超強能力。

　　在根據指令編寫代碼方面，研究人員演示了一個讓 GPT-4 寫 python 函數的例子。

　　代碼生成後，研究人員使用軟件工程面試平臺 LeetCode 在線判斷代碼是否正確。

　　對於大家都在用討論 LeetCode 正確率僅有 20%，論文作者 Yi Zhang 對此進行了反駁。

　　另外，還讓 GPT-4 將上表中 LeetCode 的準確率數據可視化爲圖表，結果如圖所示。

　　GPT-4 不僅可以完成普通的編程工作，還能勝任複雜的 3D 遊戲開發。

　　研究者讓 GPT-4 用 JavaScript 在 HTML 中編寫 3D 遊戲，GPT-4 在零樣本的情況下生成了一個滿足所有要求的遊戲。

　　在深度學習編程中，GPT-4 不僅需要數學和統計學知識，還需要對 PyTorch、TensorFlow、Keras 等框架和庫熟悉。

　　研究人員要求 GPT-4 和 ChatGPT 編寫一個自定義優化器模塊，併爲其提供了自然語言描述，其中包括一系列重要的操作，例如應用 SVD 等等。

　　除了根據指令編寫代碼，GPT-4 在理解代碼上展現出超強的能力。

　　研究者嘗試讓 GPT-4 和 ChatGPT 讀懂一段C/C++程序，並預測程序的輸出結果，二者的表現如下：

　　標黃的地方是 GPT-4 富有洞察力的觀點，而紅色標記代表 ChatGPT 出錯的地方。

　　通過編碼能力測試，研究者發現 GPT-4 可以處理各種編碼任務，從編碼挑戰到實際應用，從低級彙編到高級框架，從簡單數據結構到複雜的程序。

　　此外，GPT-4 還可以推理代碼執行、模擬指令的效果，並用自然語言解釋結果。GPT-4 甚至可以執行僞代碼。

　　數學能力

　　在數學能力上，相比於之前的大語言模型，GPT-4 已經取得了質的飛躍。即便是面對專門精調的 Minerva，在性能上也有明顯提升。

　　不過，距離專家水平還相去甚遠。

　　舉個例子：每年兔子的種羣數量會增加a倍，而在年底的最後一天，有b只兔子被人類領養。假設第一年的第一天有x只兔子，已知 3 年後兔子的數量將變爲 27x-26。那麼，a和b的值分別是多少？

　　爲了解決這個問題，我們首先需要得出每年兔子數量變化的正確表達式，通過這種遞歸關係推導出一個方程組，進而得到答案。

　　這裏，GPT-4 成功地得出瞭解決方案，並提出了一個合理的論點。相比之下，在幾次獨立嘗試中，ChatGPT 始終無法給出正確的推理和答案。

　　高等數學

　　接下來，我們直接上個難的。比如，下面這道出自 2022 年國際數學奧林匹克競賽（IMO）的問題（簡化版）。

　　該題與本科微積分考試的不同之處在於，它不符合結構化的模板。解決這個問題需要更有創造性的方法，因爲沒有明確的策略來開始證明。

　　例如，將論證分爲兩種情況（g(x) > x^2 和 g (x) < x^2）的決定並不明顯，選擇y*的原因也是如此（在論證過程中，它的原因才變得明確）。此外，解決方案需要本科級別的微積分知識。

　　儘管如此，GPT-4 還是給出了一個正確的證明。

　　第二個關於算法和圖論的討論，則可以與研究生水平的面試相媲美。

　　對此，GPT-4 能夠對一個與約束滿足問題相關的抽象圖構造進行推理，並從中得出關於 SAT 問題的正確結論（據我們所知，這種構造在數學文獻中並未出現）。

　　這次對話反映出 GPT-4 對所討論的本科級數學概念的深刻理解，以及相當程度的創造力。

　　儘管 GPT-4 在一次回答中把2^n/2 寫成了2^n-1，但着似乎更像是我們俗稱的「筆誤」，因爲它後來提供了公式的正確推廣。

　　此外，研究者在兩個通常用作基準的數學數據集上比較 GPT-4、ChatGPT 和 Minerva 的性能：GSM8K 和 MATH 。

　　結果發現，GPT4 在每個數據集上的測試都超過了 Minerva，並且在兩個測試集的準率都超過 80% 。

　　再來細看 GPT4 犯錯的原因，68% 都是計算錯誤，而不是解法錯誤。

　　與世界互動

　　智能另一個關鍵的體現就是交互性。

　　交互性對於智能很重要，因爲它使智能體能夠獲取和應用知識，解決問題，適應不斷變化的情況，並實現超出其自身能力的目標。

　　由此，研究者從工具使用和具體的交互兩個維度研究了 GPT-4 的交互性。GPT-4 在回答如下問題時能夠搜索引擎或 API 等外部工具。

　　與人類互動

　　論文中，研究者發現了 GPT-4 可以建立人類的心智模型。

　　研究設計了一系列測試來評估 GPT-4、ChatGPT 和 text-davinci-003 的心智理論的能力。比如理解信仰，GPT-4 成功通過了心理學中的 Sally-Anne 錯誤信念測試。

　　還有測試 GPT-4 在複雜情境下推斷他人情緒狀態能力的表現：

　　-湯姆爲什麼做出悲傷的表情？-亞當認爲是什麼導致了湯姆的悲傷表情？

　　通過多輪測試，研究人員發現在需要推理他人心理狀態，並提出符合現實社交場景中的方案，GPT-4 表現優於 ChatGPT 和 text-davinci-003。

　　侷限性

　　GPT-4 所採用的「預測下一個詞」模式，存在着明顯的侷限性：模型缺乏規劃、工作記憶、回溯能力和推理能力。

　　由於模型依賴於生成下一個詞的局部貪婪過程，而沒有對任務或輸出的全局產生深入的理解。因此，GPT-4 擅長生成流暢且連貫的文本，但不擅長解決無法以順序方式處理的複雜或創造性問題。

　　比如，用範圍在 0 到 9 之間的四個隨機數進行乘法和加法運算。在這個連小學生都能解決的問題上，GPT-4 的準確率僅爲 58%。

　　當數字在 10 到 19 之間，以及在 20 到 39 之間時，準確率分別降至 16% 和 12%。當數字在 99 到 199 的區間時，準確率直接降至0。

　　然而，如果讓 GPT-4「花時間」回答問題，準確率很容易提高。比如要求模型使用以下提示寫出中間步驟：116 * 114 + 178 * 157 = ? 讓我們一步一步思考，寫下所有中間步驟，然後再產生最終解。

　　此時，當數字在1-40 的區間時，準確率高達 100%，在1-200 的區間時也達到了 90%。

　　馬庫斯發文反駁

　　有意思的是，就在微軟這篇論文發表後不久，馬庫斯立馬寫出一篇博客，稱微軟的觀點「非常荒謬」。

　　並引用了聖經中的一句話「驕傲在敗壞以先，狂心在跌倒之前。（箴 16:18）」

GPT-4 怎麼就算得上早期 AGI 了？這麼說的話，計算器也算，Eliza 和 Siri 更算。這個定義就很模糊，很容易鑽空子。

　　在馬庫斯看來，GPT-4 和 AGI 沒什麼關係，而且 GPT-4 跟此前一樣，缺點依舊沒有解決，幻覺還存在，回答的不可靠性也沒有解決，甚至作者自己都承認了複雜任務的計劃能力還是不行。

　　他的擔憂的是 OpenAI 和微軟的這 2 篇論文，寫的模型完全沒有披露，訓練集和架構什麼都沒有，光靠一紙新聞稿，就想宣傳自己的科學性。

　　所以說論文裏號稱的「某種形式的 AGI」是不存在的，科學界根本無法對其進行驗證，因爲也無法獲得訓練數據，而且似乎訓練數據已經受到了污染。

　　更糟糕的是，OpenAI 已經自己開始將用戶實驗納入訓練語料庫了。這樣混淆視聽後，科學界就沒法判斷 GPT-4 的一個關鍵能力了：模型是否有能力可以對新測試案例進行歸納。

　　如果 OpenAI 不在這裏給自己戴上科學的高帽子，馬庫斯可能也不會這麼批判它。

　　他承認 GPT-4 是很強大，但是風險也是衆所周知。如果 OpenAI 缺乏透明度，並且拒絕公開模型，不如直接關停。

　　強大作者陣容

　　微軟這篇長達 154 頁的論文背後有着強大的作者陣容。

　　其中就包括：微軟雷德蒙德研究院首席研究員、2015 年斯隆獎得主Sébastien Bubeck、2023 新視野數學獎得主 Ronen Eldan、2020 斯隆研究獎得主 Yin Tat Lee、2023 新晉斯隆研究獎得主李遠志。

　　值得一提的是，微軟團隊最初定的論文題目並不是「通用人工智能的火花：GPT-4 的早期實驗」。

　　未刪減論文中泄漏的 latex 代碼顯示，最初題目是「與 AGI 的第一次接觸」。

　　沒錯了，GPT-4 是 AGI。

　　參考資料：

　　https://arxiv.org/abs/2303.12712

　　https://twitter.com/DV2559106965076/status/1638769434763608064

　　https://the-decoder.com/gpt-4-has-a-trillion-parameters/

　　https://garymarcus.substack.com/p/the-sparks-of-agi-or-the-end-of-science

【轉】微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

教你用Perl實現Smgp協議

如何通過前端表格控件在10分鐘內完成一張分組報表？

win11關閉自動檢測病毒刪文件

千兆寬帶實際網速能到達多少？

藉助ai來分析代碼，理解代碼

【轉】linux設置密鑰登錄（只允許密鑰登錄）

【轉】QPS和併發數的關係

【轉】spin lock 和mutex

【轉】Raft 理論基礎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結