多模態+大模型會帶來哪些“化學反應”?

導語:沒人懷疑,2024 年,AI 依然將是科技界的主角。上個月,OpenAI 推出了可以生成 60 秒高清視頻的視頻生成模型 Sora,掀起了對多模態模型的進一輪討論。多模態大模型技術的最新進展如何?這一波新技術,對於行業和消費者的體驗會帶來哪些變化?面對一波波快速、熱鬧的突破和變化,技術人員該如何適應多模態 + 大模型時代?  

InfoQ《極客有約》邀請了來自清華大學副研究員、曾入選人工智能全球最具影響力學者榜單和全球前 2% 頂尖科學家榜單的趙思成老師,與在機器學習、搜推廣系統領域有十餘年的前沿探索和工業實踐經驗、現任京東零售高級技術總監的彭長平老師,一起深入探討了這些話題。

無論對大模型一知半解的入門者,還是期冀通過大模型技術實現突破的探索者,此次對話都極具價值。

1視頻生成嶄露頭角 多模態大模型進展如何?  

 InfoQ:繼去年生成式大模型大火之後,多模態又成爲近期熱點,可否請兩位老師介紹下 AIGC 和多模態技術到底能夠帶來哪些變化?目前在學術界和業界分別有哪些最新進展和重要挑戰?

趙思成:AIGC 與多模態技術的結合在多個領域產生了深遠的影響。以智慧零售領域爲例,廣告的呈現方式正在經歷變革。傳統的廣告主要依賴人工設計和修改,成本較高且修改過程較爲繁瑣。而現在,通過 AIGC 和多模態技術,我們可以更高效地完成這些任務。通過語音與大模型進行交互,經過多次迭代,快速達到理想的效果。

然而,目前的多模態大模型也存在一些問題。首先,它們存在較爲嚴重的幻覺問題,表現爲無中生有、不連貫、常識缺失等。其次,在處理文本時,它們對中文的理解還不夠深入。此外,在處理圖像等模態時,多模態大模型更注重全局理解,對局部物體的理解仍有待加強。在一些垂直細分領域,如細粒度識別領域和情感計算領域,大模型做得還不夠好。這些問題與多模態大模型的訓練數據、訓練方式、以及內部架構都有關係,值得研究者進一步探索。

彭長平:當大模型與搜推等具體業務場景結合時,要獲得用戶的信任,必須解決幻覺或胡編亂造的問題。我們目前嘗試的思路包括基於檢索的 RAG 和基於專業化數據場景化數據的 SFT。雖然有所改善,但可靠性和可信度仍需進一步提高,還有很大的提升空間

關於挑戰,首先,在多模態數據方面,需要不同類型的數據對齊。無論是業界還是學術界,大規模對齊數據的獲取都是一個難題。其次,對於圖像、視頻和直播等多媒體物料,與人腦對比,計算機對於圖片和視頻的表徵效率,遠低於文本。第三,不同類型的任務,建模方式不太一樣。還沒有出現在圖像領域多種任務上,都達到或者接近 SOTA 的統一模型。因此,多模態領域還有許多值得探索和攻克的方向。

 InfoQ:聚焦來看,在多模態檢索與識別中,如何有效地融合圖像和音頻等不同類型的信息以提高檢索和識別的準確性一直是業界很難解決的問題,這其中最大的技術挑戰是什麼?

趙思成:我 21 年在 IEEE Signal Processing Magazine 寫過一篇多模態的綜述,主要是關於多模態情感識別的,總結了多模態的優勢和挑戰。

多模態情感識別的優勢主要包括:數據互補性、模型魯棒性和性能優越性,例如,用戶在京東上評價一個商品時,如果同時附上文字和圖片,那麼兩者之間可以形成互補,使得情感表達更加準確。同時,即使某個模態的數據缺失,模型仍可以依靠其他模態進行情感判斷。此外,與單模態情感視頻相比,多模態情感視頻在性能上可以獲得約 10% 的提升。

然而,多模態情感識別也面臨一些挑戰,例如跨模態不一致性和不平衡性。爲了融合不同模態的信息,我們提出了兩種主要的融合方法:一類是與模型無關的融合,包括特徵級融合(早期融合)、決策級融合(晚期融合)和混合融合,優點是簡單沒有額外的參數,缺點是性能差;另一類是基於模型的融合,把融合的事交給模型去學習,優點是性能好,缺點是有更多參數需要學習。由於不同模態的語義空間、特徵空間差別比較大,如何讓不同模態進行更好地交互與對齊來提高檢索和識別的性能,還值得我們深入研究。

此前 Open AI 發佈的多模態大模型 GPT-4 能夠接受圖像和文本輸入,生成文本,通過引入更多人類反饋數據進行訓練,不斷吸取現實世界使用的經驗教訓進行改進,可以更準確地解決多模態融合難題,具有更廣泛的常識和解決問題的能力:更具創造性和協作性;能夠處理超過兩萬個單詞的文本,允許長文內容創建、擴展對話以及文檔搜索和分析等用例。

 InfoQ:從基礎模型到業務創新應用湧現了非常多,兩位老師有沒有印象深刻的應用?整體來看,能夠帶來突破性變化和讓所有人帶來顯著體感的不太多,這可能會是什麼原因?

趙思成我對機器翻譯的應用感觸頗深。當我的學生們需要寫英文論文時,如果英文寫作能力有限,機器翻譯可以成爲得力助手。以前,我們需要分別學習中文到英文、中文到俄文等不同的翻譯模型,而現在有了統一的學習,我們可以將中文內容交給機器進行翻譯,再根據翻譯結果進行修改和完善。這不僅提高了論文寫作的速度,還能確保質量。

雖然目前這種應用還處於初級階段,對下游任務和業務場景的識別還不夠成熟,但相信隨着時間的積累,我們會看到更多令人驚豔的應用出現。正如智能手機的發展推動了各類應用的湧現,隨着技術的不斷進步,未來的應用場景一定會更加豐富和多樣。

彭長平:我一直關注着 AI 行業的發展,2023 年湧現出許多令人驚豔的技術,如 GPT、Midjourney、Google 的多模態視頻以及 Pika 的視頻生成技術等。這些技術令人感到通用人工智能似乎近在咫尺。然而在實際應用中,這些技術並沒有得到大規模或持續性的使用,特別是在 C 端消費者產品方面。當評估 C 端產品時,人們通常關注 NPS 和留存率這兩個指標,這需要產品具有可靠性,但目前階段的 AGI 技術還無法達到非常可靠的水平。從技術後臺預估下一個 token 的機率來看,現階段也未能實現可靠的性能。因此,AGI 技術目前所面臨的挑戰是如何實現高可靠性,並獲得用戶的信任,使其能夠產生可靠的結果

從我的判斷來看,B 端場景可能會更早地實現 AGI 技術的應用落地。對於商家運營等場景,AGI 技術可以通過提高效率來滿足其需求,更容易越過用戶的心理門檻。因爲在帶來效率提升的同時,滿足商家訴求將更容易獲得用戶的信任並持續使用。因此,我預測 B 端應用可能會更早地進入用戶認爲可靠並持續使用的狀態。

 InfoQ:早在 2021 年,清華 - 京東就聯合成立了智慧零售技術聯合研究中心,這兩年,很多研究方向都與多模態相關。當時這個合作和這些研究方向是如何選定的?

彭長平:在京東與清華智慧零售研究中心的合作過程中,我們考察了多個方向,最終將多模態作爲主要投入方向。這個決策基於三個關鍵因素:首先,清華大學信息學院在認知科學和計算機視覺領域擁有深厚的技術積累,有一批像趙思成老師這樣的學術大咖和青年才俊在這些方向持續研究;其次,視頻、直播已經成爲最主流的信息傳遞方式,零售行業也隨這種信息載體變化而發生變革,受益於此,線上零售的份額和效率都在提升;第三,結合京東的業務場景,用戶、商品、內容都在高速增長,以多模態爲基礎的內容理解是核心技術,我們認爲傳統的建模和依賴行爲的方式遇到了瓶頸,相反,多模態方法更適合理解和描述新的商品和內容

站在當下,無論是回望過去兩年的合作成果,還是看向未來的 AGI 大潮,我們都覺得當年在多模態上合作並投入雙方資源,是很正確的選擇。

趙思成:清華大學在機器學習、計算機視覺、推薦系統等多個領域具有國際領先的技術積累,京東作爲零售行業的頭部企業,具有多年的行業積累,面臨數字化智能升級機遇。兩者合作實現互補,可以推動理論突破、技術創新和產業升級。

對於研究方向的選擇,零售行業與多模態緊密相關。例如,當我們通過文本搜索商品時,除了文本描述外,還希望看到相關的圖像和視頻來更全面地瞭解產品。這一過程涉及多模態內容,因此我們決定深入研究動態多模態。京東擁有海量的動態數據,爲我們的研究提供了有力支持

2這一波新技術,對於行業和消費者的體驗會帶來哪些變化?  

 InfoQ:從初代用戶搜什麼系統推薦什麼,到後來 AI 發展帶來“千人千面”的搜索體驗,再到現在大模型時代,各家都在嘗試推出能夠實現多輪交互的電商平臺 AI 導購,搜推系統正在朝着越來越懂用戶的方向持續發展。這一波新技術,對於消費者的體驗會帶來哪些變化?

彭長平:我們都知道搜索和推薦場景的業務高度依賴 AI 算法。隨着 AGI 技術的不斷增強,預計會有兩個明顯的體驗變化。

首先,個性化將得到顯著提升。儘管之前的搜索和推薦也號稱千人千面,但更多是基於一個大的候選池子進行匹配。而隨着生成式內容的出現,每個用戶對於同一商品所關注的點會有所不同,因此呈現的素材、賣點和內容也會因人而異。這意味着,同一個商品對於不同用戶展現的內容也會有所不同,從而實現更強的個性化

其次,購物將朝着助手化的方向發展。隨着 AGI 技術的可靠性和信任度不斷提升,購物助手將越來越受到用戶的信賴。這些助手能夠深入瞭解用戶的真實訴求,甚至發現用戶自己都沒有意識到的東西。這是通過大模型將大量非場景相關的物料和電商行業知識壓縮到模型中實現的。這些知識不僅包括電商行爲物料,還涵蓋了更廣泛的行業知識。最終,助手推送的東西可能比用戶自己更瞭解自己的需求,從而爲用戶帶來驚喜和滿足感

總之,隨着 AGI 技術的不斷髮展和應用,購物體驗將變得更加個性化、智能化和高效化。

 InfoQ:傳統電商場景會強依賴用戶行爲和平臺數據,那新技術的加持能否帶來變化,可以突破以往解決不了的問題?

彭長平:相對行爲來說,主要有幾個方面的影響。首先,傳統的行爲模型在典型的冷啓場景和用戶行爲豐富的場景中表現可靠,但旦遇到新商品或用戶行爲稀疏的情況,其可靠性就會下降。這主要是因爲模型在這些場景下對內容的理解和刻畫能力有限。而引入多模態技術和內容理解後,模型的泛化能力和傳遞能力得到了顯著增強。這使得模型在行爲稀疏的場景下也能保持較高的準確性,從而提高了整個系統的可靠性。

此外,多模態技術還有助於解決電商平臺常見的馬太問題,即強者越強、弱者越弱的現象。通過引入新技術,我們可以改善這一問題,促進整個生態的健康發展。主持人提到,零售領域的數據完整度相對較好,結構化程度也較高。然而,在實際應用中,我們仍然面臨大量商品用戶行爲稀疏的問題。這意味着,雖然我們的匹配技術在處理幾億用戶和幾十萬或百萬量級的商品時表現出色,但仍有大量商品因缺乏用戶行爲數據而無法得到展示機會。而內容理解技術的引入,極大地促進了這些商家在京東的成長和獲取訂單的機會。因此,多模態技術和內容理解在提升零售平臺的用戶體驗和商家在京東的生意增長方面都具有重要作用。

 InfoQ:距離更充分地理解“用戶”和更聰明智慧地推薦,還有哪些技術難點需要攻克?

彭長平:對於購物助手的概念,我們認爲它必須具備兩個核心要素。首先,它必須能夠隨時隨地爲用戶提供購物幫助,這就要求我們突破多模態技術,因爲只有多模態技術才能準確識別用戶的場景和需求。其次,購物助手不能僅僅依賴於京東站內的行爲數據,它還需要融入整個行業的知識、商品的內容以及視頻化內容等,以全面刻畫購物知識

早期,我們曾考慮過利用知識圖譜來整合京東採銷的專業知識。然而,隨着 ChatGPT 和大模型的興起,我們意識到這種完全依賴於人工結構化知識或知識圖譜的方式可能不是最佳選擇。相反,類似於 Transformer 的大模型結構,通過將大量數據輸入模型並讓其自主輸出,可能更適合構建一套可靠的購物助手知識體系。

趙思成:購物助手應該能夠精準理解用戶的需求和偏好,避免當用戶在 A 處購買商品後,B 和 C 仍繼續推薦同一商品。同時,購物助手應該能夠深入分析用戶搜索但未購買商品的原因,無論是價格、質量還是服務,從而爲用戶提供更加符合需求的購物體驗。隨着技術的不斷進步,我相信購物助手將能夠更好地滿足用戶的需求,爲用戶的購物過程帶來更多的便利和愉悅。

 InfoQ:如果大模型和多模態的技術未來真的成熟了,未來電商平臺的推薦系統會迎來哪些巨大的改變?會給業務帶來哪些全新的應用場景?

彭長平對於 C 端用戶來說,當前的推薦系統仍然停留在給出候選列表供用戶選擇的階段。然而,如思成老師所說,用戶可能經常對列表中的選項都不滿意。我認爲,隨着技術的發展,真正的購物助手應該能夠大大減少用戶挑選的過程,甚至可能只推薦一個或兩個高度符合用戶需求的商品。這需要我們引入大量的行業知識,充分理解商品內容,確保推薦的商品真正符合用戶的關注點。當購物助手能夠滿足用戶百分之八九十的購物需求時,它將成爲用戶隨時隨地的得力助手,而不僅僅是打開某個 APP 的功能。

對於 B 端商家來說,隨着大模型技術的廣泛應用,許多領域的成本都有可能大幅度降低,也就是 Sam Altman 去年曾發文闡述過的“萬物摩爾定律”。零售是一個注重效率的行業,如果商家運營和生產成本能夠降低,商品價格也有可能大幅下降。這將爲用戶帶來更大的實惠和更滿足個性化需求的商品。因爲生產成本和運營成本的降低,商品本身甚至可能實現個性化定製。目前,我們爲 B 端商家提供了一些基於 AI 技術的工具,旨在簡化商家與平臺的交互過程。然而,這只是初步階段。爲了真正提高效率,我們需要將這套邏輯應用到更多環節,從而將整個零售鏈條的效率提升到新的水平。

趙思成:我認爲,如果購物助手能夠實現跨平臺、跨區域、跨領域和跨語言的推薦,這將是一個巨大的進步。同時,我也非常重視用戶體驗,特別是虛擬現實和元宇宙技術在提升購物體驗方面的潛力。想象一下,如果能在虛擬環境中試穿各種衣服或者感受不同牀的軟硬程度,這將是一種全新的購物體驗。

 InfoQ:在搜推廣領域,京東是如何將多模態和大模型運用到業務場景中的?相比傳統方式,有哪些指標能體現出來明顯優於傳統的搜推?

彭長平從 ToB、ToC 兩個場景來說:ToB 素材和內容製作,經營助手。效率更高,上手更快,依賴度更高,迭代效率更快。ToC,兩方面:一方面將大模型應用於商品、內容理解和用戶 Query 理解。但更重要的方面是,我們基於 AGI 的算法模式,重新思考搜推廣的整個鏈路,從召回、CTR/CVR 預估、重排、機制,重新設計我們的算法。

關於指標這塊,隨着多模態相關技術的引入,特別是加強了對內容類別的理解之後,我們能夠明顯地看到模型的泛化能力有所提升。對於新用戶、新商品、新場景和新內容等稀疏用戶行爲的情況,這些技術加上大模型的結合,使得模型在這些場景中相對於原有模型具有明顯的優勢。因此,我們相信這種技術能夠更好地應對各種問題,爲用戶帶來更好的體驗。

3面對一波波快速、熱鬧的突破和變化,技術人員又該如何適應多模態 + 大模型時代?  

 InfoQ:新技術變化迅速,對於技術同學們而言,如何快速學習?

趙思成:我認爲快速學習是分年齡段的。對於學生或者年輕技術人員而言,由於他們擁有相對充裕的時間和精力,可以更多地投入於閱讀論文和關注前沿進展。他們可以追隨行業內的領軍人物,關注他們的研究成果,從而拓寬自己的知識視野。

對於像我這樣的中年老師或者中層技術管理者來說,由於日常工作中需要處理各種會議、項目申請等事務,分配給閱讀論文的時間相對較少。可以鼓勵學生或者年輕同學們深入研讀,並創造一個相互分享理解和發現的氛圍。這樣,在把握整體趨勢的同時,可以共同討論並確定研究方向。

對於更高層級的決策者,可能不需要對具體的研究細節有深入的瞭解。他們的主要任務是確保團隊的大方向正確,保持與業界和學術界的聯繫,確保項目的順利進行,從而確保整個團隊的生存與發展。

彭長平:回顧我們學習的過程,技術的演變總是迅速而深刻。深度學習興起後,我們主要聚焦於深度網絡,而其他算法逐漸邊緣化。現在,ChatGPT 的出現預示着一種趨勢,它可能引領技術發展方向,使衆多紛繁複雜的技術路線逐漸收斂到更適應 AGI 模式的算法和技術路徑上

因此,我們在選擇技術路線時,可以參考 AGI 的發展趨勢。我們內部在進行技術選型時,也採用這一標準。面對 a、b、c 三種方法,我們會評估哪種方法更適合 AGI 模式下的長期發展。基於這一評估,我們確定長期技術路線,然後規劃短期行動步驟,以實現最終目標。ChatGPT 的出現實際上減輕了我們的學習負擔,因爲它提供了一個更統一的標準,我們可以依據這個標準做出選擇

 InfoQ:大模型時代,哪些是工程師們的核心能力?

彭長平:技術人員的核心競爭力一定會變化,因爲技術產生業務收益的方式不一樣了。可以認爲這是一次“機器學習”技術範式的遷移。我覺得首先要具備跟隨技術範式遷移,適應變化的心理準備。但核心競爭力是不是下面描述的,純屬個人預判。先回顧一下大規模機器學習的在工業界 3 個階段,每個階段算法工程師主要乾的活都不太一樣:

“LR 時代”:基於業務和數據的理解,大比例的時間花在了設計人工 Feature;

“DNN 時代”基於業務和數據的理解,大比例的時間花在了在調模型結構;

但進入“AGI 時代”後,模型結構 Transformer 與 GPU 的適配,正在統一江湖。我認爲核心的競爭力是:數據、算法、算力的 Co-design 能力。尤其是無監督訓練任務的設計,以及不同場景和類型的數據,在算力條件的約束下如何聯合訓練。

趙思成:使用大模型,適配大模型,充分挖掘大模型的潛力是最重要的。深度學習工程師需要掌握深度學習算法和模型的理解,具備模型訓練和調優的能力,瞭解大規模數據處理和分佈式計算技術,熟悉模型部署和性能優化的方法,具備軟件工程和工程實踐的技能,並具備解決問題和創新的能力。這些核心能力可以幫助工程師在大模型時代高效地應對挑戰並取得成功。

 InfoQ:大模型時代,做事方法和思維模式上應該如何變化?團隊和組織設置應該如何設置?

趙思成:首先,我們不能排斥大模型,因爲大模型的時代已經來臨,這是不可避免的趨勢。正如前三次工業革命帶來的變革和影響,我們必須適應並接納大模型作爲提升生產力的工具。

其次,我認爲我們應該專注於自己擅長並感興趣的事情。爲了實現這一目標,我們可以組建一個多學科交叉的團隊,每個成員都能夠在自己的領域內發揮專長,並共同追求卓越。這樣,我們不僅能夠將每個人的能力發揮到極致,還能通過團隊的合作實現更大的成就。

彭長平:我認爲 AGI 和 ChatGPT 代表了一種技術範式的轉型。從思維層面來看,我堅信這一方向是正確的,並且在可見的未來內,它有可能沿着這一方向迅速發展。因此,在進行技術選擇時,我會以此作爲標準,判斷是選擇技術 A 還是技術 B。從方法論角度來說,我們需要深入理解數據和算力約束,並基於這些邏輯來設計算法和訓練任務。在當前階段,快速迭代顯得尤爲重要。由於許多團隊都在瞄準同一方向,快速迭代和準確判斷離目標的距離成爲了關鍵。

在團隊建設方面,我與趙思成老師的觀點相似。團隊成員之間需要在技術目標上保持一致的信仰,同時能力上需要多元化,以適應快速迭代的需求。以 OpenAI 爲例,儘管他們只有 700 多名員工,但他們所創造的價值和影響力遠超我們的想象。這表明,一個小而精的團隊結構可能更適合當前階段的快速迭代

 

掃一掃,與作者技術交流一下吧!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章