文章學習 | 大模型發展

嬗變:大語言模型帶來的人工智能新紀元 | CCCF精選

蓋茨說:大語言模型創新的影響力可以與20世紀60年代的微處理器、80年代的個人電腦、90年代的互聯網和21世紀初的蘋果手機媲美。

大模型的創新

大語言模型是人工智能領域自然語言處理的一部分。在大語言模型出現之前,自然語言處理主要依賴循環神經網絡(RNN)模型實現。早在20世紀80年代,就出現了能夠處理單詞序列的循環遞歸神經網絡,但這些網絡的訓練過程緩慢,且容易忘記序列中的早期單詞。1997年,人工智能專家霍克賴特(Sepp Hochreiter)和施密德胡伯(Jürgen Schmidhuber)提出了一種新型的循環神經網絡模型——長短期記憶(LSTM)網絡。這種神經網絡通過維護一個隱狀態(hidden state),保留並持續更新輸入序列的關鍵歷史信息,能做出更準確的輸出判斷。

文本嵌入

2000年前後出現的文本嵌入(text embedding)是大語言模型發展中的一個重要創新。文本嵌入是指將待處理文本中的單元映射爲固定維度的向量,使這些單元在每個維度上都能得到數值化的表示。每個維度上的不同數值代表該文本單元與對應維度的關聯性。通過這種嵌入表示,計算機可以計算不同單元向量之間的距離或相似度以理解文本的語義關係和含義。文本嵌入可以基於詞或者標記(token)嵌入技術(如Word2Vec、GloVe)得到單詞級別的向量,也可以基於句子嵌入技術(如BERT)得到句子級別的向量。文本嵌入的質量和表示能力直接影響大語言模型的性能,以及生成結果的質量。此外,大語言模型中文本單元的數量和用來標記每個單元的向量維度大小,也對生成文本的質量有顯著的影響。例如,谷歌的大語言模型BERT使用768維的向量表示每個單詞,而OpenAI的GPT-3則使用12888維的向量表示每個詞語。

文本嵌入在處理人類語言上的應用與谷歌搜索算法對網絡信息的處理方法有些類似。20世紀90年代,谷歌的兩位創始人就通過對網頁鏈接的分析提供了網頁信息搜索的解決方案PageRank。谷歌的鏈接分析算法爲每個網頁分配一個排名值,然後使用特徵向量表示所有互聯網網頁的排名關係。這是通過建立網頁之間的指向關係形成的n元一次方程組,並利用該方程組的矩陣求解特徵向量,以獲取每個網頁的權重。這個權重就成了後續搜索排序的重要依據。1997年,谷歌創始人使用這種方法分析互聯網時,共收集了2400萬個網頁,包括7650萬個鏈接。基於此,谷歌搜索引擎成功解決了互聯網信息搜索問題。谷歌通過分析網頁間的簡單鏈接,確定每個網頁的重要性大小,而大語言模型則是通過分析文本單元之間的向量關係,歸納出被分析文本中的知識(通過向量的相關性)。這些知識在預訓練後以參數的形式嵌入到大語言模型中,並用於各種不同的應用。

2012年,深度學習神經網絡模型在ImageNet圖像識別挑戰賽上的成功引領了人工智能領域的飛速發展。在隨後的10年時間裏,研究人員利用深度學習神經網絡在圖像和語音識別、語言翻譯等領域取得了顯著突破。引發這一革命的卷積神經網絡等新型人工智能算法開始被用來處理自然語言數據。然而,這些神經網絡結構與循環神經網絡一樣,只能順序地輸入和輸出單詞或文本單元,無法像處理圖像時那樣充分利用大規模並行處理的計算優勢。因此,卷積神經網絡雖然在許多領域取得了進步,但在自然語言處理,尤其是文本理解、分析和生成方面的突破並不明顯。

這個瓶頸在2017年被打破,這歸功於谷歌研究團隊提出的新型神經網絡架構——轉換器(Transformers),如圖1所示。轉換器的主要創新之處在於引入了“自注意力機制”(self-attention mechanism)。傳統的序列處理模型需要依次輸入序列中的每個元素,一次處理一個,這限制了模型的並行處理能力,且在處理長序列時可能出現信息丟失的問題。然而,轉換器的自注意力機制使模型能直接關注到序列中任意位置的元素,同時考慮整個序列,這使得模型能更好地捕捉序列中的長距離依賴關係。具體來說,自注意力機制在計算元素表示時,會考慮到整個序列中所有元素的信息,並對不同的元素賦予不同的注意力權重,這個權重體現了計算當前元素表示的重要性。這使得轉換器在處理如機器翻譯或文本摘要等任務時,能夠捕捉到更豐富的上下文信息。此外,轉換器徹底摒棄了傳統循環神經網絡和長短期記憶網絡中的遞歸操作,使所有操作都可以在多個元素上同時進行,極大提高了計算效率,並使其在大規模數據集上的訓練成爲可能。這一進步大大提升了自然語言處理領域的計算效率,尤其是提升了使用該架構和模型的人工智能程序學習各種海量自然語言文本的速度。

圖片

雖然最早提出轉換器架構的是谷歌,但是最早將這一研究成果用於大語言模型的卻是OpenAI。OpenAI成立於2015年,是由一批硅谷精英創建的非營利組織,其目標是防止谷歌收購DeepMind後在人工智能領域形成壟斷地位。2017年穀歌提出轉換器架構之後,OpenAI率先在2018年推出了大語言模型GPT(Generative Pre-trained Transformer)。緊隨其後,谷歌在2019年也推出了另一個大語言模型BERT(Bidirectional Encoder Representations from Transformers)

BERT和GPT均基於轉換器架構,並採用大規模並行計算和自監督學習方法進行預訓練。這兩種模型首先將輸入文本轉換爲向量表示,然後輸入到轉換器網絡中進行自動處理。這種方式使得使用海量高質量文本數據預訓練出大語言模型成爲可能。在預訓練之後,模型進行微調以完成具體的任務。儘管BERT和GPT有許多共性,但也有顯著區別, 最主要區別在於預訓練方法和模型方向不同。BERT採用遮蔽語言模型(masked language model)進行預訓練,它會隨機遮蓋輸入文本中的部分單詞,並嘗試預測這些單詞。同時,BERT是一種雙向模型,能夠同時從左至右和從右至左分析輸入文本的上下文信息。與此相反,GPT則運用自迴歸語言模型(autoregressive language model)進行預訓練,該模型從一個方向開始,基於已有的文本預測下一個單詞。這種區別導致了BERT和GPT在應用方面的優勢各異。BERT主要應用於機器翻譯、問答系統、情感分析等任務,而GPT則更適用於對話和文章創作等場景,因此GPT在大衆市場中率先贏得了廣泛的關注和應用。

通過結合轉換器架構和無監督學習,大語言模型無需明確的標籤或指導,就能學習豐富的語言模式和知識。這意味着這些模型不僅可以通過吸收大量的文本數據進行自我學習,還可以通過不斷擴展其文本嵌入單元的向量空間和參數數量進行提升,從而持續增強對語言模式和知識的整合能力。GPT系列模型的發展歷程證實了這一原則。從2018年的GPT-1到2022年的GPT-3.5,GPT模型的參數數量已從1.17億增長到1750億。最新版本的GPT-4的參數數量據稱超過1萬億,這基本上延續了指數增長的趨勢。隨着參數數量的飛速增長,這些大語言模型的能力也呈現出驚人的進步。GPT-1在各種自然語言處理任務上表現出色,GPT-2能夠生成連貫且有意義的文章,GPT-3不僅可以生成高質量的文本,還能執行翻譯、編程、詩歌創作等多樣化的任務。而GPT-3.5,即廣受歡迎的ChatGPT,已經能在多個領域超越人類水平,包括通過法律、醫學等各個專業領域的資格考試。

值得指出的是,參數數量並非大語言模型表現的唯一決定性指標。參數的分佈和可調性也起着重要的作用。比如,谷歌最近推出的基於BERT的BARD對話人工智能只用了1.73億個參數,遠低於GPT-3.5和GPT-4,但效果仍然出色。另一方面,據傳GPT-4採用了新的混合專家架構,該架構連接了8個具有相同架構的子模型,每個子模型擁有2200億個參數,並使用了不同的訓練數據和16次循環推理。這意味着GPT-4擁有1.76萬億個參數,但這並不是簡單的參數增加,而是引入了並行分佈的因素,這也可能是GPT-4比GPT-3.5具有質的提升的原因。

大衆媒體往往用“統計預測下一個詞彙”的方式解釋大語言模型的工作原理,然而這種說法並沒有涵蓋真正的全貌。ChatGPT等大語言模型能夠成功預測下一個字符的機理並非僅依賴相關詞頻的統計,更在於一系列創新技術,比如文本嵌入技術。大語言模型的核心創新是通過分析網絡上所有可接觸的人類文本信息中包含的語言模式和知識產生新的信息,並將這些信息通過預訓練的方式嵌入到文本向量數據庫中。當這種信息模式和數量積累到一定規模時,就會出現一種由量變到質變的“湧現屬性”(emergent property)。這不是一個單純的預測下一個詞的任務,而是深度理解和再創造語言的複雜過程。

大語言模型的湧現屬性之一就是思考鏈條(chain of thought),如圖2所示。2022年穀歌的研究人員發現當大語言模型達到一定規模時(比如GPT-3有1750億個參數,PaLM有5400億個參數),給它們提供一個通過幾步中間過程推理和解決邏輯或者數學問題的例子,然後再問一個問題,它們就可以用中間過程的推理解決問題,而且用這種思考鏈條方式解決問題可以大幅度提高正確率。後來隨着大模型的進一步優化,用戶在使用這些大模型時,已經不用提供一個具體的例子,只需要在提示中添加中間解決步驟之類的用語就可以達到類似的效果。這說明大語言模型具備一定規模後,經過對文本數據的分析,“湧現”出了類似於數學符號推導的推理能力。這種推理能力爲大語言模型賦予了處理和分析複雜信息的能力,使其能夠自主提供創新的解決方案,以應對各種複雜問題和未知情境。具備邏輯推理能力的大語言模型,通過持續推理和學習,不斷提升自身的性能,這使它們在需要靈活性和創新性解決方案的工作中展現出了競爭力,例如分析大量市場數據、財務報告和行業趨勢,然後推理出最優的投資策略。

圖2 普通提示和思考鏈條提示方式的對比

圖片

大模型的革新和發展

大語言模型代表的生成式人工智能將對社會產生深遠的影響。一方面,它將提高企業和個人的工作效率,推動各種業務的變革;另一方面,其應用可能引發就業結構、教育方式、社會交往等方面的變革。

大語言模型的開發和應用將形成一個包括服務提供商、開發工具、專門的硬件設備、教育培訓等在內的生態系統,變革也將從此開始。OpenAI和谷歌這類擁有大語言基礎模型的公司已經成爲服務提供商,並且會推出類似蘋果APP商店的應用平臺。在此之外,企業和商界將通過服務提供商提供的API調用或者客戶端直接安裝的方式,將大語言模型的人工智能集成至其商業操作之中。

OpenAI預測約80%的美國勞動力中有10%的工作可能會受到大語言人工智能引入的影響,而有19%的美國勞動力將面臨至少50%的工作受到影響。高盛集團預測大約三分之二的現有工作會受到人工智能自動化的影響,而生成式人工智能最多可能替代現有四分之一的工作。在全球範圍內,生成式人工智能可以實現3億全職工作的自動化。

實際上,在大語言模型誕生之前,諸如Midjourney、DALL-E、Stable Diffusion等圖像生成式人工智能,以及MusicLM等音樂生成式人工智能已經能創作出與普通設計師作品相匹敵的產品。這種技術的發展導致許多小公司開始削減設計人員的崗位。我們可以預見,類似的情況將在大語言模型的各種應用領域出現,企業最終可能會裁減大部分可被生成式人工智能替代的員工,而保留下來的崗位員工則需要熟練掌握人工智能技術以提高工作效率。

大語言模型最終能否替代人類的工作,關鍵在於其可靠性。這一因素決定了人工智能取代不同職業的速度和順序。當人工智能的錯誤率降至人類水平或更低時,人工智能大規模取代人類工作的進程將會加速。根據最新的GPT-4測試報告,其錯誤率在20%左右,對大多數可能被替代的工作而言,這仍然是一個相對較高的錯誤率。與可靠性緊密關聯的一個特性是,準確率和推理深度的提高往往難以同時實現。由於每個詞的輸出都存在一定的錯誤概率,隨着推理層數的增加,錯誤概率會呈指數級增長,這意味着,如果要求大語言模型進行更深層次的邏輯推理,其準確率會迅速降低,除非每一步都有人工進行校正。因此,從近期來看,使用人工智能提升人類工作效率而不是全面取代人類仍將是主流趨勢。

對普通用戶而言,這場變革或許將從改變我們與機器的交互方式開始,其影響會在教育和社交活動中逐漸發生。20世紀80年代的個人電腦圖形用戶界面,以及2007年的蘋果手機軟鍵盤,都是人機交互歷史上的重大革新。前者使得那些不熟悉電腦命令的普通用戶也能夠輕鬆使用電腦,大大提升了工作效率;後者則通過提供直接下載或卸載應用程序的功能,以及語音輸入等方式,進一步降低了電腦和手機的操作難度。大語言模型的出現將引領另一場革新:它能理解和生成自然語言,使用戶能夠通過自然語言與電腦進行交互,無需通過傳統的用戶界面點擊或輸入特定命令,這是一個去界面化的過程。用戶用自然語言發出的指令能被更精準地理解並執行。另外,通過學習用戶的交互方式和偏好,大語言模型可以提供個性化的用戶體驗。而且,大語言模型通常支持多種語言,這讓用戶可以用自己的母語與電腦進行交互,從而提升用戶的使用體驗。在大語言模型出現之前,網絡對話和聊天機器人已經在市場上產生了一定的影響力。大語言模型的引入將使這些機器人更加智能化,最終它們的功能將從對話延伸至提供各種諮詢服務和執行各種用戶指令。此外,交互界面的革新將使許多已經具有一定智能化能力的生產和生活物件能夠通過網絡與大語言模型連接,被賦予更強大的人工智能能力,使它們更“人性化”。

影響

大語言模型的創新,特別是其具有思考鏈條自我更新能力的突破性特性,使其區別於以往單一領域的漸進式人工智能創新,顯示出通用人工智能的跡象。目前通用人工智能被理解爲理論上具備人類水平的理解、學習和應用知識能力的一種人工智能形態。換言之,無論是科學技術、文藝創作、高級策略遊戲,還是日常對話,通用人工智能都能從經驗中學習,根據新信息和環境自我改進和適應,在各種不同的任務中都能像人類一樣表現出色。通用人工智能還具有創新性,能提出新的想法,解決新的問題,甚至在需要時提出新的解決方案,自主決策,而不只是在人類預設的參數和選項中運行。

通用人工智能

當前,我們已經擁有在特定任務上表現優秀的人工智能系統,如圖像識別、自然語言處理、遊戲對戰等。但這些系統大多屬於人工窄智能(artificial narrow intelligence),即只能在特定任務上表現優秀,而對於未經專門訓練的新任務,其表現往往不佳。迄今爲止,我們尚未成功開發出真正的通用人工智能系統。

通用人工智能的一個關鍵要素是自我學習能力。如果一個人工智能系統能夠在不需要人類幫助的情況下實現源代碼的遞歸式更新和優化,那麼它就具備了實現通用人工智能的初步技術條件,因爲這種系統可以通過不斷的自我學習,迅速超越人類在任何專業領域的能力。在這方面,大語言模型已經展現出了一些能力。例如,GitHub和OpenAI合作開發的編程助手GitHub Copilot能夠自動編寫各種大小的應用程序;軟件機器人AutoGPT和HuggingGPT,可以通過調用API或者與Copilot類似的專家模型與大語言應用結合,通過大語言模型的自動任務解析,實現人類用戶設定的目標。從技術架構上看,AutoGPT主要通過構建適當的提示讓大語言模型自我運行來處理複雜問題。它可以參考互聯網信息、歷史對話等生成最終結果。而HuggingGPT更像是一個人工智能的大腦,負責調度、決策和整合,將具體的任務交給其他專家模型執行,這些專家模型可能是語言模型或其他模型,然後一起形成一個協調的系統,共同完成複雜的任務。

隨着人工智能向通用人工智能的進階,一個緊迫的倫理問題浮出水面——我們是在孕育一個未來的機器人助手,還是人類的終結者?

【悲觀】對於這個問題,ACM圖靈獎的兩位得主辛頓(Hinton)和楊立昆(Yann LeCun)有着不同的觀點。辛頓持有比較悲觀的看法,他爲了警告社會關於人工智能的潛在風險,甚至放棄了他在谷歌的職位。在他看來,人類智能在人工智能面前很快將如同一個三歲小孩在一個成人面前。這意味着我們試圖以各種方式限制和控制人工智能的嘗試,在人工智能“覺醒”的那一刻都會被迅速識破和繞過,我們可能會毫不察覺地在人工智能的控制下生活。

【樂觀】相反,楊立昆的觀點更爲樂觀。他認爲大語言模型的能力將最終被限制在文字所能代表的智能範圍內,離達到通用人工智能的水平還有很大距離,更別提“自我意識”這種我們目前還未完全理解的概念了。他甚至全面否定了大語言模型能發展爲通用人工智能的可能性,並提出了所謂“世界模型”的發展路徑。

【中立】對於這兩位人工智能領域權威人物的兩極對立觀點,OpenAI的創始人奧特曼(Altman)持更中立的立場。2023年5月,他在美國國會關於人工智能風險控制的聽證會上表示,政府或者國際組織需要對人工智能的發展進行有效監管和規範。這一立場可能更多來自對這一技術被惡意用戶或者經濟和政治實體濫用風險的擔憂。至於人工智能本身帶來的風險,他認爲,人工智能可能帶來的滅絕人類的風險應被視爲與全球流行病和核戰爭等同等級的社會風險,降低這一風險應該成爲全人類的優先任務。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章