王海峯:百度 500 萬 AI 人才培養目標已提前達成

4 月 16 日,以“創造未來”爲主題的 Create 2024 百度 AI 開發者大會在深圳國際會展中心成功舉辦。百度首席技術官王海峯以“技術築基,星河璀璨”爲題,發表演講,解讀了智能體、代碼、多模型等多項文心大模型的關鍵技術和最新進展。

自去年 3 月 16 日發佈知識增強大語言模型文心一言以來,百度不斷迭代升級文心大模型,技術創新不斷,從知識增強、檢索增強,進一步發展出知識點增強;基於更大的算力、更多的數據和更強的算法,依託飛槳平臺,從文心 3.0、3.5,到 4.0,文心大模型能力愈加強大,效果和性能全面提升。

 

王海峯表示,智能體是重要的發展方向,會帶來更多的應用爆發。智能體是在基礎模型上,進一步進行思考增強訓練,包括思考過程的有監督精調、行爲決策的偏好學習、結果反思的增強學習,進而得到思考模型。智能體的思考模型像人一樣,會閱讀說明書,學習工具的使用方法,進而可以調用工具來完成任務。

王海峯解讀了智能體的思考過程,演示了智能體如何經過思考調用工具。在文心大模型 4.0 工具版上,提問“我要到大灣區出差一週。想了解一下天氣變化,好決定帶什麼衣服。請幫我查一下未來一週北京和深圳的溫度,告訴我出差應該帶什麼衣服,並整理成表格。”智能體就像人一樣,通過思考、規劃,把用戶需求拆解成多個子任務,首先調用“高級聯網”工具來查詢天氣信息,然後調用“代碼解釋器”畫溫度趨勢圖,根據未來一週的天氣情況,選擇了合適的衣物,最後對結果進行思考、確認,並自動彙總成一個表格。從萬億級訓練數據中,文心大模型既學到了自然語言的能力,也學到了代碼能力,打通從思考到執行的過程。基於文心大模型的這兩種能力,百度開發了代碼智能體和智能代碼助手。

王海峯表示:“代碼智能體,讓大家都能做之前只有程序員才能做的事,人人都可以成爲程序員;智能代碼助手,則幫助專業的程序員更高效地寫出更好的代碼,可以說是程序員的 AI 同儕。”代碼智能體是在“用模型寫代碼讓複雜的任務變簡單”,思考模型加上代碼解釋器,構成了代碼智能體。首先,思考模型理解用戶需求,經過思考,把完成任務的指令和相關信息整合成提示,輸入給代碼解釋器;然後,代碼解釋器根據提示,把自然語言表達的用戶需求翻譯成代碼並執行,得到執行結果或者調試信息;接着,思考模型對代碼解釋器的執行結果進行反思確認,如果正確,就把結果返回給用戶,不正確就繼續進行自主迭代更新。

王海峯演示了用代碼智能體爲本次 Create 大會嘉賓定製邀請函,代碼智能體首先理解了邀請函模版內容,然後生成代碼並執行,把嘉賓姓名填寫到合適位置,新生成的邀請函文件以嘉賓的名字命名,最後輸出打包好的多張邀請函。

大會現場,王海峯進一步透露,在模型效果不斷提升的基礎上,百度進一步構建了上下文增強、私域知識增強、流程無縫集成等能力。目前智能代碼助手 Comate 整體採納率達到了 46%,新增代碼中生成的比例已經達到了 27%。Comate 把代碼理解、生成、優化等能力無縫集成到研發流程的各個環節,就像助理一樣,幫助提升代碼開發質量和效率。Comate 展示了幫助工程師接收代碼的過程,通過一條簡單的指令,就可以快速瞭解整個代碼的架構,甚至是每一個模塊的具體實現邏輯,還可以根據當前的項目代碼以及第三方代碼自動生成滿足要求的新代碼。

王海峯現場還分享了多模型技術。他表示,在大模型應用落地過程中,效果,效率和成本都很重要。在實際應用中,需要從場景需求出發,選擇最適合的模型。一方面,是高效低成本的模型生產;另一方面,是多模型推理。

高效低成本模型生產方面,百度研製了大小模型協同的訓練機制,可以有效進行知識繼承,高效生產高質量小模型,也可以利用小模型實現對比增強,幫助大模型的訓練。同時,建設了種子模型矩陣,數據提質與增強機制,以及從預訓練、精調對齊、模型壓縮到推理部署的配套工具鏈。高效低成本模型生產機制,助力應用速度更快、成本更低、效果更好。

多模型推理方面,百度研製了基於反饋學習的端到端多模型推理技術,構建了智能路由模型,進行端到端反饋學習,充分發揮不同模型處理不同任務的能力,達到效果、效率和成本的最佳平衡。

 

除了智能體、代碼和多模型技術,文心大模型在其他方面也持續創新,包括基於模型反饋閉環的數據體系、基於自反饋增強的大模型對齊技術,以及多模態技術等。王海峯現場公佈,文心大模型 4.0 的效果持續提升,發佈後的半年時間,又提升了 52.5%。

 

文心大模型的持續快速進化,得益於百度在芯片、框架、模型和應用上的全棧佈局,尤其是飛槳深度學習平臺和文心的聯合優化。文心大模型的周均訓練有效率達到 98.8%,相比一年前文心一言發佈時,訓練效率提升到當時的 5.1 倍,推理 105 倍。截至目前,飛槳文心生態已凝聚 1295 萬開發者,服務 24.4 萬家企事業單位,基於飛槳和文心創建 89.5 萬個模型。王海峯表示,文心一言累計用戶規模已達 2 億,日均調用量也達到了 2 億,高效滿足了用戶工作、生活和學習需求。

 

最後,王海峯介紹了百度 AI 人才計劃的最新進展,百度在 2020 年提出了 5 年爲全社會培養 500 萬 AI 人才,目前這一目標已提前達成。他表示,“未來,我們將繼續投身人才培養,讓人才的點點星光,匯成璀璨星河。智能時代,人人都是開發者,人人都是創造者,讓我們一起,創造美好未來。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章