中國開源大模型這一仗怎麼打? 本人觀點:三步走。

近日,在北京舉行的2023開放原子全球開源峯會開源大模型分論壇上,筆者作爲開放原子基金會TOC大模型SIG(即Special Interest Group,類似工作組)的發起人,發表了名爲《開源協作下一代數字經濟核心基礎設施》的主題演講,分論壇的官方媒體回顧鏈接在此https://mp.weixin.qq.com/s/6eXK-6ztLUBpw2qK61ZsTg

在這裏,我想把在我在當日論壇上分享的內容用博客文章更詳細的寫下來,並呼籲更多的參與。

首先大語言模型爲什麼重要?

ChatGPT火了,而且高溫不退。2022年11月30日,OpenAI對外推出基於GPT3.5的ChatGPT服務,給全球互聯網和科技帶來前所未有的震撼。人類世界從未有這樣的產品,短短兩個月達到一億的活躍用戶,而且很多用戶願意付費,願意每天使用,並且不斷有新的用法出來。爲什麼?簡單分析來說,我認爲是以下兩個原因造成它的大流行。

  • 第一個原因是ChatGPT第一次以toC的應用向普羅大衆揭示了AI的能力。 2017年以來,著名AI科學家並曾任谷歌和百度AI大腦負責人的吳恩達教授一直都說“AI is the New Electricity“, 即AI是新的電力,將徹底改變人類的工作和生活,但是長期以來,普通人很難感受到AI的魅力,他們也許在手機上體驗過支付寶的人臉支付,體驗過抖音上的小視頻推薦,體驗過京東上的購物推薦,這些場景後面其實都是大量人工智能的技術在支撐,但是相對沒有那麼直接能感受到。而ChatGPT提供了一個人人能用的對話框,只需要輸入對話內容,他就像一個無所不知的天才,能夠給出各種比較合理或者看似合理的答覆,而且在中英翻譯、文章摘要、尋求建議等方面表現的非常專業。普通人第一次能以如此方便的形式感受到AI的能力,就像電燈把電力帶到了千家萬戶,“Chat GPT”把人工智能的能力展示給了所有普通人。
  • 第二個原因是它以自然語言交互的方式大大降低了體驗的門檻。 交互的進步是可以極大的促進技術、產品和產業的進步的。我們回想一下相關的歷史,2007年蘋果喬布斯先生髮布初代iPhone的時候,它帶來革命的交互方式的改變,人們可以用手指來代替鍵盤或者手寫筆來完成手機上跟各個手機應用之間的交互,他們通過點擊、拖放、多點觸摸等交互方式輕鬆使用手機上的各種應用,徹底改變了手機產業,並帶來移動互聯網的高速發展;但是對於人來說,相對手指,對話是更自然的交互方式。只要跟計算機系統進行對話,就可以完成大部分的工作,這是很多人的夢想。但是之前的各種對話工具,例如蘋果的Siri和Baidu的小度,雖然已經發布不短時間了,但是對於人的自然語言的理解和交互的邏輯,距離人的期望還是差的很遠。但是這一次,ChatGPT的發佈,讓大家發現,原來和它對話,並不是那麼痛苦的事情,它能很好的理解問題,而且還能很有邏輯的回答問題(雖然有些問題回答是一本正經的胡說八道)。從此,以自然語言交互的方式,將成爲之後人機交互的默認界面,因爲它的交互體驗更自然。

這一切纔剛剛開始,ChatGPT只是大模型應用的一種產品,此外還有更多大模型應用的產品相繼出現,比如Midjourney的AI圖片生成,Runway的AI視頻生成,以及Adobe、微軟等把AIGC工具集成到它們的生產力工具等等。隨着大模型技術的進步以及人類想象力的進步,會有更多相關的AI工具出現,極大的提升我們日常工作和生活的效率。

但是,大模型不僅僅只是生產力工具,它可能比想象中還要重要。它濃縮了全世界的知識,將徹底改變“知識的創造、繼承和應用”,對知識的影響堪比四大發明的“造紙術和印刷術“。而知識是第一生產力,知識的創造、繼承和應用方式的徹底改變,將對整個社會的工業、農業、教育、軍事等發生重大影響。所以我認爲大模型是下一代數字經濟核心的基礎設施

所以,中國的大模型建設不能落後,但是這一仗怎麼打?

我們先看看現狀,現狀是大模型全世界只有中美能做,但是對比OpenAI,我們的差距是非常明顯的。

  • 我們的模型距離GPT3.5還有幾個月的差距,但是GPT 4出來又幾個月了。
  • 我們的中文數據集在數量上和質量上還跟英文數據集有很大差距。
  • 我們的算力還受到很大的限制。
  • 我們架構在大模型上的開發生態纔剛剛開始。

所以,只能發揮中國“集中力量辦大事”的傳統,匯聚國內廣大相關企業、高校、研究單位的人力和資源,來共同把大模型做好。但是選擇什麼樣的戰略呢?

看看國內已經參與大模型的各個企業,最近呈現出百模大戰的局面,包括百度、阿里、華爲、360、網易、商湯、清華智譜、北京智源等都紛紛推出自己的大模型產品。他們之中其實是有大量的重複工作的,包括並不限於如下這些:

  • 中文語料的收錄和清洗。
  • 中文對齊指令訓練集的標註和整理。
  • 跟國家相關合規規定的對齊。
  • 對國產算力的適配和調優,包括訓練和推理的調度和優化。
  • 相關訓練程序的優化,尤其是RLHF部分。

如果我們能夠採用開源的方式,把這些重複的工作都採用更高效的方式協作起來,是可以減少重複造輪子,併爲創新生態提供更好的基礎的。

當然,我們需要的大模型是一個能夠持續進化的大模型,是一個能在此基礎上產生健康生態(開發活躍、良性競爭、技術和商業都兼顧)的大模型,再結合開放原子基金會的使命和價值觀,我們只能採用開源協作的方式來推動

可能有的同學有疑問,能否集中各種資源(包括數據、人力、算力等資源)支持一兩家公司或者機構來快速發展大模型?我認爲首先這不符合開放原子基金會的定位;其次我不認爲這種類似“天選”或者“欽定”的方式能在如今的形式下Work。用“天選”的方式進行運作,風險太高了,包括技術風險,團隊風險和道德風險。大模型的技術迭代是非常快的,雖然目前的主流都是基於Transformer的Decoder Only模式,但是過幾年呢?多模態的要求尤其是多模態對齊的要求下,Transformer的Decoder Only是否還是最優的方式,不好說。不能只賭一種技術路線,賭一種技術路線的技術風險實在太高了,因爲這一仗我們不能輸;另外選定一到幾家企業或者機構,這些組織的團隊是否給力,是否能長期良性運作都是一個問題,他們能否承擔起這樣的責任並一步步實現?;最後選擇集中算力資源來支持一到幾家組織也是道德風險巨高的事情,算力後面是海量的機器,後面是天價的財政投入,數據集後面也是巨大的資源投入。壟斷狀態下有可能會滋生嚴重的腐敗問題。基於以上這些原因,開放原子基金會來推動建設大模型,只能採用開源協作,並長期努力的方式來進行。(當然不排除某些機構採用集中力量支持一兩家機構的可能性,他們在處理好以上這些風險後有可能行動速度更快,更容易看到效果。)

開源協作的路線定下來之後,我們來看看具體怎麼操作?

先看看協作的目標是什麼?見下圖。

其中一個或多個基於開源數據集(符合國內相關合規規定)和開源訓練程序,並在國產算力上訓練生成的開源通用大模型是關鍵。

我來簡單拆解一下,從結果的角度來倒推爲什麼。

未來幾十年的大模型相關的產業形態,我預測如下:1. 首先是有幾家提供通用大模型服務的企業,候選包括百度、阿里等; 2.其次是多家企業提供行業大模型的服務,包括金融、能源、製造等行業;3.最後是數百家甚至上千家技術企業提供企業內部的私有化大模型服務,用於知識管理、軟件開發、供應鏈等具體場景。每家企業內都會有很多大模型的服務,其中大部分是部署在企業內部的私有化大模型服務,也有少部分是訪問公網大模型API服務。

那麼開源通用大模型將如何支撐這些產業形態?1.  提供通用大模型服務的企業,可以是在開源通用大模型加上他們各自有獨特競爭力的特性,或者是部分私有數據提供更好的能力,或者是在底層調度和優化上提供更低價格的服務;2.提供行業大模型服務的企業,可以是在開源通用大模型加上各個行業特有的數據。3. 企業內部的私有大模型,可以是在開源通用大模型上加上企業內部的私有數據。以上種種形態的分析都表明,開源通用大模型是關鍵的技術底座。

架構在開源通用大模型之上還有各種各樣的技術棧,包括開發框架、向量數據庫等都可以通過開源的方式來共建。用來支持的底層算力調度和優化的開發庫或者平臺,也都可以用開源的方式共建。

那麼共建大模型(包括算力、數據集、算法)以及之上的開發技術棧,以及之下的國產算力調度和優化,實施步驟可以按照如下的計劃進行三步走。

這上面所列舉的三類數據集和三類模型,是我把ChatGPT的訓練過程簡化爲三個步驟,見下圖,分別是:

1.  拿數十TB來自互聯網的語料,進行非監督學習,得到預訓練模型,也稱爲Base model;

2. 拿數萬人工標註的指令訓練集,進行監督學習,得到指令優化模型,也稱爲SFT Model;

3. 拿數萬人工標註的強化訓練集,進行強化學習,得到最後的對話模型,稱爲Assit Model,也稱爲Chat Model。

具體這三步走的步驟如下:

  1. 第一步:獲得各種開源數據集(以中文爲特色),加上數據合規清洗程序(依據中國的各種法律法規對原始數據集進行合規處理和清洗);並存放在國內的模型和數據託管服務上,類似Hugging face。
  2. 第二步:獲得各種開源訓練程序,並組織算力共享池,在此算力上訓練得到各種通用的開源大模型;
  3. 第三步:不斷優化和更新通用大模型,訓練得到移動端模型,結合行業數據得到開源行業大模型等;

路線和步驟都如上所述,但是紙上談兵好說,難的是一步步的落到實處。不過好在基金會TOC的價值觀就是開放、透明、務實。我相信一步步來,每一步都走的很堅實,那麼一定會得到很好的長期效果,爲中國的開源大模型技術生態和商業生態,提供最基礎的數據、算法和模型。 希望能做到全程透明可追述,任何一家有一定財力的公司或者組織,都可以根據基金會文檔組建好算力集羣后,下載各種數據集和程序,從頭訓練出三類大模型(基礎模型、監督模型和對話模型)出來,然後再進行各種fine tune來適配各自的場景,或者作爲行業大模型服務提供,或者作爲企業內部大模型服務提供。

開放原子基金會在TOC的大模型SIG之上,組建了開源大模型工作委員會,從數據共享,算法開源、算力公用基礎設施共建三個方面來進行協作。

歡迎社會各界人士加入該工委會,請聯繫開放原子基金會(官網地址在https://www.openatom.org/

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章