累積推理技術提升準確率

原創

2023-10-13 14:00

轉載：圖靈獎得主姚期智領銜提出大模型「思維」框架！邏輯推理正確率達98%，思考方式更像人類了

前言

近日我國圖靈獎得主姚期智院士團隊發表首篇大語言模型論文，主要解決“讓大模型像人一樣思考”的問題，不僅要讓大模型一步步推理，還要讓它們學會“步步爲營”，記住推理中間的所有正確過程。具體來說，這篇新論文提出了一種叫做累積推理（Cumulative Reasoning，CR）的新方法，顯著提高了大模型搞複雜推理的能力。

論文：https://arxiv.org/pdf/2308.04371.pdf

之前大模型的推理基於思維鏈（CoT）、思維樹（ToT）等技術，但面對“要拐好幾個彎”的問題，還是容易出錯，累積推理正是在此基礎上，加入了一個“驗證者”，及時判斷對錯，由此模型的思考框架也從鏈狀和樹狀，變成了更復雜的“有向無環圖”。

結果是在代數和幾何數論等數學難題上，大模型的相對準確率提升了42%；玩24點，成功率更是飆升到98%。

突破思維鏈/樹的瓶頸

累積推理的核心，在於改進了大模型思維過程的“形狀”。

具體來說，這個方法用到了3個大語言模型：

提議者 (Proposer)：不斷提出新命題，即基於當前思維上下文，建議下一步是什麼。
驗證者 (Verifier)：覈查提議者的命題準確性，如果正確就將它添加到思維上下文中。
報告者 (Reporter)：判斷是否已經能得到最終解決方案，來確定是否結束推理過程。

推理過程中，“提議者”先給出提案，“驗證者”負責評估，“報告者”決定是否要敲定答案、終止思考過程。

有點像是團隊項目裏的三類角色：小組成員先頭腦風暴出各種idea，指導老師“把關”看哪個idea可行，組長決策什麼時候完成項目。

所以，這種方法究竟是怎麼改變大模型思維“形狀”的？

思維鏈（Chain of Thought,CoT）

在2022年1月由OpenAI科學家Jason Wei等人提出，核心在於給數據集中的輸入加一段“逐步推理”文字，激發出大模型的思考能力。

可以看作是在訓練時，在準備的問答對中，回答加入了“逐步推理”，且最後推理結果也給出了“逐步推理”。

思維鏈Plus版（CoT-SC）

基於思維鏈原理，谷歌也快速跟進了一個“思維鏈PLUS版”，即CoT-SC，主要是進行多次思維鏈過程，並對答案進行多數投票（majority vote）選出最佳答案，進一步提升推理準確率。

存在問題：題目不止有一種解法，人類做題更是如此。

思維樹（Tree of Thought,ToT）

這是樹狀檢索方案，允許模型嘗試多種不同的推理思路，並自我評估、選擇下一步行動方案，必要時也可以回溯選擇。

從方法中可以看出，思維樹比思維鏈更進一步，讓大模型思維“更活躍”了。這也是爲什麼玩24點時，思維鏈加成的GPT-4成功率只有4%，但思維樹成功率卻飆升到74%。

共同侷限：它們都沒有設置思維過程中間結果的儲存位置。

本文中的累計推理技術就認爲，大模型的整體思維過程不一定是鏈或樹，還可以是一個有向無環圖（DAG）。

這也就意味着，可以將所有歷史上正確的推理結果存儲於內存中，以便在當前搜索分支中探索。（相比之下，思維樹並不會存儲來自其它分支的信息）。但累積推理也能和思維鏈無縫切換——只要將“驗證者”去掉，就是一個標準的思維鏈模式。

基於這種方法設計的累積推理，在各種方法上都取得了不錯的效果。

測試結果

研究人員選擇了FOLIO wiki和AutoTNLI、24點遊戲、MATH數據集，來對累積推理進行“測試”。

提議者、驗證者、報告者在每次實驗中使用相同的大語言模型（如GPT-3.5-turbo、GPT-4、LLaMA-13B、LLaMA-65B等），用不同的prompt來設定角色。

值得一提的是，理想情況下應該使用相關推導任務數據專門預訓練模型、“驗證者”也應加入正規的數學證明器、命題邏輯求解器模塊等。

邏輯推理能力

FOLIO是一階邏輯推理數據集，問題的標籤可以是“true”、“False”、“Unknown”；AutoTNLI是高階邏輯推理數據集。

在FOLIO wiki數據集上，與直接輸出結果（Direct）、思維鏈（CoT）、進階版思維鏈（CoT-SC）方法相比，累積推理（CR）表現總是最優。

在刪除數據集中有問題的實例（比如答案不正確）後，使用CR方法的GPT-4推理準確率達到了98.04%，並且有最小1.96%的錯誤率。

再來看AutoTNLI數據集上的表現：與CoT方法相比，CR顯著提高了LLaMA-13B、LLaMA-65B的性能；在LLaMA-65B模型上，CR相較於CoT的改進達到了9.3%。

玩24點遊戲能力

ToT最初論文中用到的是24點遊戲，所以這裏研究人員就用此數據集來做CR和ToT的比較，ToT使用固定寬度和深度的搜索樹，CR允許大模型自主確定搜索深度。

研究人員在實驗中發現，在24點的上下文中，CR算法和ToT算法非常相似。不同點在於，CR中算法每次迭代最多產生一個新的狀態，而ToT在每次迭代中會產生許多候選狀態，並過濾、保留一部分狀態。

通俗來講，ToT沒有上面提到的CR有的“驗證者”，不能判斷狀態（a、b、c）正誤，因此ToT比CR會探索更多無效狀態。

最終CR方法的正確率甚至能達到98%（ToT爲74%），且平均訪問狀態數量要比ToT少很多，也就是說CR不僅有更高的搜索正確率，也有更高的搜索效率。

數學能力

MATH數據集包含了大量數學推理題目，包含代數、幾何、數論等，題目難度分爲五級。

用CR方法，模型可以將題目分步驟拆解成能較好完成的子問題，自問自答，直到產生答案。

實驗結果表明，CR在兩種不同的實驗設定下，正確率均超出當前已有方法，總體正確率可達58%，並在Level 5的難題中實現了42%的相對準確率提升，拿下了GPT-4模型下的新SOTA。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

faiss簡單測試方法

先把倉庫克隆到本地，我這邊還需要改cmake環境，在project上面加 set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.8/bin/nvcc) 構建 mkdir build cmake -B bui

2024-04-28 14:29:59

WPF & Prism

WPF編程-Prism 世有伯樂，然後有千里馬。千里馬常有，而伯樂不常有。一、背景 Winform和WPF 1. WinForms和WPF 技術架構： WinForms是基於傳統的窗體和控件的技術，使用的是類

2024-04-28 14:25:08

一個庫幫你輕鬆的創建漂亮的.NET控制檯應用程序

前言做過.NET控制檯應用程序的同學應該都知道原生的.NET控制檯應用程序輸出的內容都比較的單調，假如要編寫漂亮且美觀的控制檯輸出內容或者樣式可能需要花費不少的時間去編寫代碼和調試。今天大姚給大家分享一個.NET開源且免費的類庫幫你輕鬆的

2024-04-28 14:22:48

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

大家好，我是R哥。說說最近的面試輔導，有個學員進了某個知名互聯網公司，拿到了 35K*14 薪的好成績，有不少粉絲留言問我，現在行情這麼差，他是怎麼做到的？這篇拿他這個案例完整回顧一下吧，我管他叫小Y吧。背景溝通說下小Y的基本情況吧

2024-04-28 14:22:17

電腦刷新率的選擇

選120hz的比60hz更護眼.

張博的博客

2024-04-28 14:20:47

Python 潮流週刊#48：Python 3.14 的發佈計劃

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期分享了 12 篇文

豌豆花下貓

2024-04-28 14:20:07

gpu機器沒有開啓ipv6

參考： https://blog.csdn.net/asdfaa/article/details/137884414 檢查系統是否支持 IPv6,查看被禁用了在啓用 IPv6 之前，首先要確保您的系統支持 IPv6。要檢查內核

2024-04-28 14:14:47

pl0詞法分析器

pl/0詞法分析器下面是這個分析器的功能： 1、待分析的簡單語言的詞法（1）關鍵字： begin if then while do end 所有關鍵字都是小寫。（2）運算符和界符： := + – * / < <= <> > >=

2024-04-28 14:14:06

VS2008 LIB的升級改造

今天用VS2019編譯一個在VS2008下Coding的工程的時候，VS給出了一堆鏈接錯誤信息，如下圖所示的一些錯誤： Error 47 error LNK2019: unresolved external symbol "public

2024-04-28 14:14:06

Windows平臺NASM彙編與C混合調用

Windows平臺NASM彙編與C混合調用 tonyblackwhite 之前介紹了Windows平臺下，用微軟宏彙編MASM與C混合調用的方法。MASM是微軟獨有的，Linux沒法用，我喜歡學一個能夠應用於兩種平臺的，所以還是更鐘情於開源

2024-04-28 14:14:06

程序員想通過產品掙錢，首先你產品的目標客戶得不差錢（在線客服系統外傳1）

在線客服系統我利用業餘時間斷斷續續做了好幾年，從一開始的追求完美，到後來的集中精力解決核心問題，從一開始的在每一個用戶身上投入大量時間，到後來學會分辨什麼是有價值客戶，學到很多，成長很多。有許多工程技術上很好，很優秀的產品，甚至一定程度上

2024-04-28 14:14:06

springboot~redis的hash結構爲key設置過期策略

redis配置文件開啓鍵過期 # The "notify-keyspace-events" takes as argument a string that is composed # of zero or multiple charac

2024-04-28 14:13:26

如何開發一個符合人性的機器人通知功能

國內的IT企業逐漸的都有各種IM機器人，這些IM機器人會不斷的吐數據，但是這些吐數據最後都成了像垃圾消息或者周扒皮一樣的催命通知，完全沒有人性。我非常痛恨這種把IM裏不斷被催的方式，這種方式雖然能起作用，但是人在這種環境下工作真的就成了工具

2024-04-28 14:09:16

【轉】[WPF] 複製文本到剪貼板

來自：阿里的通義靈碼以下是幾種常見的複製數據類型到剪切板的方法：複製文本到剪切板 using System.Windows.Forms; // 對於Windows Forms應用 // 或者 using System.Windows

2024-04-28 14:05:45

Python: Regular expressions

@staticmethod def strSplit(textSource: str, patterns: str)->list: """ 分割字符串 :param

®Geovin Du Dream Park™

2024-04-28 14:01:24

24小時熱門文章

最新文章

最新評論文章