累積推理技術提升準確率

轉載:圖靈獎得主姚期智領銜提出大模型「思維」框架!邏輯推理正確率達98%,思考方式更像人類了

前言

近日我國圖靈獎得主姚期智院士團隊發表首篇大語言模型論文,主要解決“讓大模型像人一樣思考”的問題,不僅要讓大模型一步步推理,還要讓它們學會“步步爲營”,記住推理中間的所有正確過程。具體來說,這篇新論文提出了一種叫做累積推理(Cumulative Reasoning,CR)的新方法,顯著提高了大模型搞複雜推理的能力。

論文:https://arxiv.org/pdf/2308.04371.pdf

image-20231013092537919

之前大模型的推理基於思維鏈(CoT)、思維樹(ToT)等技術,但面對“要拐好幾個彎”的問題,還是容易出錯,累積推理正是在此基礎上,加入了一個“驗證者”,及時判斷對錯,由此模型的思考框架也從鏈狀和樹狀,變成了更復雜的“有向無環圖”。

結果是在代數和幾何數論等數學難題上,大模型的相對準確率提升了42%;玩24點,成功率更是飆升到98%

突破思維鏈/樹的瓶頸

累積推理的核心,在於改進了大模型思維過程的“形狀”。

具體來說,這個方法用到了3個大語言模型

  • 提議者 (Proposer):不斷提出新命題,即基於當前思維上下文,建議下一步是什麼。
  • 驗證者 (Verifier):覈查提議者的命題準確性,如果正確就將它添加到思維上下文中。
  • 報告者 (Reporter):判斷是否已經能得到最終解決方案,來確定是否結束推理過程。

推理過程中,“提議者”先給出提案,“驗證者”負責評估,“報告者”決定是否要敲定答案、終止思考過程。

有點像是團隊項目裏的三類角色:小組成員先頭腦風暴出各種idea,指導老師“把關”看哪個idea可行,組長決策什麼時候完成項目。

image-20231013093401799

所以,這種方法究竟是怎麼改變大模型思維“形狀”的?

  • 思維鏈(Chain of Thought,CoT)

在2022年1月由OpenAI科學家Jason Wei等人提出,核心在於給數據集中的輸入加一段“逐步推理”文字,激發出大模型的思考能力。

可以看作是在訓練時,在準備的問答對中,回答加入了“逐步推理”,且最後推理結果也給出了“逐步推理”。

圖片

  • 思維鏈Plus版(CoT-SC)

基於思維鏈原理,谷歌也快速跟進了一個“思維鏈PLUS版”,即CoT-SC,主要是進行多次思維鏈過程,並對答案進行多數投票(majority vote)選出最佳答案,進一步提升推理準確率。

存在問題:題目不止有一種解法,人類做題更是如此。

  • 思維樹(Tree of Thought,ToT)

這是樹狀檢索方案,允許模型嘗試多種不同的推理思路,並自我評估、選擇下一步行動方案,必要時也可以回溯選擇。

圖片

從方法中可以看出,思維樹比思維鏈更進一步,讓大模型思維“更活躍”了。這也是爲什麼玩24點時,思維鏈加成的GPT-4成功率只有4%,但思維樹成功率卻飆升到74%

共同侷限:它們都沒有設置思維過程中間結果的儲存位置。

本文中的累計推理技術就認爲,大模型的整體思維過程不一定是鏈或樹,還可以是一個有向無環圖(DAG)

image-20231013094429171

這也就意味着,可以將所有歷史上正確的推理結果存儲於內存中,以便在當前搜索分支中探索。(相比之下,思維樹並不會存儲來自其它分支的信息)。但累積推理也能和思維鏈無縫切換——只要將“驗證者”去掉,就是一個標準的思維鏈模式。

基於這種方法設計的累積推理,在各種方法上都取得了不錯的效果。

測試結果

研究人員選擇了FOLIO wiki和AutoTNLI、24點遊戲、MATH數據集,來對累積推理進行“測試”。

提議者、驗證者、報告者在每次實驗中使用相同的大語言模型(如GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B等),用不同的prompt來設定角色。

值得一提的是,理想情況下應該使用相關推導任務數據專門預訓練模型、“驗證者”也應加入正規的數學證明器、命題邏輯求解器模塊等。

  • 邏輯推理能力

FOLIO是一階邏輯推理數據集,問題的標籤可以是“true”、“False”、“Unknown”;AutoTNLI是高階邏輯推理數據集。

在FOLIO wiki數據集上,與直接輸出結果(Direct)、思維鏈(CoT)、進階版思維鏈(CoT-SC)方法相比,累積推理(CR)表現總是最優。

在刪除數據集中有問題的實例(比如答案不正確)後,使用CR方法的GPT-4推理準確率達到了98.04%,並且有最小1.96%的錯誤率。

image-20231013095003021

再來看AutoTNLI數據集上的表現:與CoT方法相比,CR顯著提高了LLaMA-13B、LLaMA-65B的性能;在LLaMA-65B模型上,CR相較於CoT的改進達到了9.3%。

image-20231013095132727

  • 玩24點遊戲能力

ToT最初論文中用到的是24點遊戲,所以這裏研究人員就用此數據集來做CR和ToT的比較,ToT使用固定寬度和深度的搜索樹,CR允許大模型自主確定搜索深度。

研究人員在實驗中發現,在24點的上下文中,CR算法和ToT算法非常相似。不同點在於,CR中算法每次迭代最多產生一個新的狀態,而ToT在每次迭代中會產生許多候選狀態,並過濾、保留一部分狀態。

通俗來講,ToT沒有上面提到的CR有的“驗證者”,不能判斷狀態(a、b、c)正誤,因此ToT比CR會探索更多無效狀態。

image-20231013095416085

最終CR方法的正確率甚至能達到98%(ToT爲74%),且平均訪問狀態數量要比ToT少很多,也就是說CR不僅有更高的搜索正確率,也有更高的搜索效率。

image-20231013095529747

  • 數學能力

MATH數據集包含了大量數學推理題目,包含代數、幾何、數論等,題目難度分爲五級。

用CR方法,模型可以將題目分步驟拆解成能較好完成的子問題,自問自答,直到產生答案。

實驗結果表明,CR在兩種不同的實驗設定下,正確率均超出當前已有方法,總體正確率可達58%,並在Level 5的難題中實現了42%的相對準確率提升,拿下了GPT-4模型下的新SOTA。

image-20231013095735229

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章