阿里雲人工智能平臺PAI多篇論文入選EMNLP 2023

近期,阿里雲人工智能平臺PAI主導的多篇論文在EMNLP2023上入選。EMNLP是人工智能自然語言處理領域的頂級國際會議,聚焦於自然語言處理技術在各個應用場景的學術研究,尤其重視自然語言處理的實證研究。該會議曾推動了預訓練語言模型、文本挖掘、對話系統、機器翻譯等自然語言處理領域的核心創新,在學術和工業界都有巨大的影響力。此次入選意味着阿里雲人工智能平臺PAI自研的自然語言處理算法達到了全球業界先進水平,獲得了國際學者的認可,展現了中國人工智能技術創新在國際上的競爭力。

論文簡述

面向Stable Diffusion的自動Prompt工程算法BeautifulPrompt

文生圖是AIGC中最引人注目和廣泛應用的技術之一,旨在通過文本輸入創建逼真的圖像。然而,文成圖模型要求用戶在模型推理之前編寫文本提示(例如“一艘雄偉的帆船”)。編寫滿足設計師或藝術工作者需求的這些提示充滿了不確定性,就像開盲盒一樣。這是由於訓練數據的質量問題,導致需要詳細的描述才能生成高質量的圖像。在現實場景中,非專家往往很難手工編寫這些提示,並且需要通過試錯的迭代修改來重新生成圖像,從而導致時間和計算資源的嚴重浪費。BeautifulPrompt模型關注於大語言模型(LLM)自動地生成高質量的提示詞,與InstructGPT類似,採用了三階段的訓練方式。下圖展示了使用簡單的圖片描述和BeautifulPrompt之後生產的圖片:

爲了驗證BeautifulPrompt的有效性,我們在一些基於模型打分的客觀指標和人類主觀評估上做了評測,結果驗證了BeautifulPrompt顯著提升了提示詞的質量,可以生成高質量的圖像。

面向垂直領域的知識預訓練語言模型

知識增強預訓練語言模型(KEPLM)通過從大規模知識圖(KGs)中注入知識事實來提高各種下游NLP任務的性能。然而,由於缺乏足夠的域圖語義,這些構建開放域KEPLM的方法很難直接遷移到垂直領域,因爲它們缺乏對垂直領域KGs的特性進行深入建模。如下圖所示,KG實體相對於純文本的覆蓋率在垂直領域中明顯低於開放域,表明領域知識注入存在全局稀疏現象。這意味着將檢索到的少數相關三元組直接注入到PLM中對於領域來說可能是不夠的。我們進一步注意到,在垂直領域KGs中,最大點雙連通分量的比率要高得多,這意味着這些KGs中同一實體類下的實體相互連接更緊密,並表現出局部密度特性。

這一工作研究是基於上述領域KG的數據特性提出了一個簡單但有效的統一框架來學習各種垂直領域的KEPLM。它分別通過雙曲空間學習垂直領域圖譜數據的分層語義信息來補充全局語義稀疏模塊Hyperbolic Knowledge-aware Aggregator,通過捕捉領域圖譜稠密的圖結構構造基於點雙聯通分量的對比學習模塊Multi-Level Knowledge-aware Augmenter。

我們選取了金融和醫療等領域的各種下游任務的全數據量和少樣本數據量場景進行評測,結果體現出這個模型的優越性。

基於大語言模型的複雜任務認知推理算法CogTree

隨着深度學習在自然語言處理、機器翻譯等任務上的不斷髮展,人們對如何將深度學習應用到自然語言處理中越來越感興趣,由此出現了大語言模型(例如GPT-3.5),並已在文本生成、情感分析、對話系統等多個任務上取得了重大突破。大語言模型通常基於大規模文本數據進行預訓練,然後通過微調在特定任務上進行優化,以生成高質量的文本輸出。然而,對於語言模型而言,複雜的邏輯推理問題和數學問題的求解仍然是很困難的。並且,傳統的語言模型缺乏認知能力。在處理涉及冗長的推理鏈或多步解決方案的問題時,對於問題及其當前回答的評估是很重要的。然而,目前的方法例如Chain-of-thought等通常缺乏對於中間過程的驗證。並且大型語言模型的部署和推理成本相對較高,特別是在利用無參數更新的推理增強技術時。這些技術需要大量的上下文和多步的答案生成,進一步增加了推理成本和時間。

這一工作研究面向輕量化大模型的複雜任務推理,使用較小規模的模型(7B),構建雙系統生成推理樹,大大增強模型在複雜數學問題和邏輯推理問題上的回答能力。提出了一種大模型面向複雜數學問題的求解方法。該方法基於人類的認知理論,通過兩個系統:直覺系統和反思系統來模仿人類產生認知的過程。直覺系統負責產生原始問題的多個分解假設,反思系統對直覺系統產生的假設進行驗證,並選擇更有可能的假設進行後續生成,直到達到最終結果。通過上述雙系統的迭代式生成,可以提升大模型的解題準確度。

我們在Entailment Bank邏輯推理數據集以及GSM8K數學問題數據集上進行了測試,效果證明CogTree對大模型複雜任務上的回答準確率提升明顯。

基於知識遷移的跨語言機器閱讀理解算法

大規模預訓練語言模型的廣泛應用,促進了NLP各個下游任務準確度大幅提升,然而,傳統的自然語言理解任務通常需要大量的標註數據來微調預訓練語言模型。但低資源語言缺乏標註數據集,難以獲取。大部分現有的機器閱讀理解(MRC)數據集都是英文的,這對於其他語言來說是一個困難。其次,不同語言之間存在語言和文化的差異,表現爲不同的句子結構、詞序和形態特徵。例如,日語、中文、印地語和阿拉伯語等語言具有不同的文字系統和更復雜的語法系統,這使得MRC模型難以理解這些語言的文本。爲了解決這些挑戰,現有文獻中通常採用基於機器翻譯的數據增強方法,將源語言的數據集翻譯成目標語言進行模型訓練。然而,在MRC任務中,由於翻譯導致的答案跨度偏移,無法直接使用源語言的輸出分佈來教導目標語言。

這一工作提出了一種名爲X-STA的跨語言MRC方法,遵循三個原則:共享、教導和對齊。共享方面,提出了梯度分解的知識共享技術,通過使用平行語言對作爲模型輸入,從源語言中提取知識,增強對目標語言的理解,同時避免源語言表示的退化。教導方面,本方法利用注意機制,在目標語言的上下文中尋找與源語言輸出答案語義相似的答案跨度,用於校準輸出答案。對齊方面,多層次的對齊被利用來進一步增強MRC模型的跨語言傳遞能力。通過知識共享、教導和多層次對齊,本方法可以增強模型對不同語言的語言理解能力。

了驗證X-STA算法的有效性,我們在三個跨語言MRC數據集上進行了測試,效果證明X-STA對精度提升明顯。

上述科研成果也在PAI產品的各個模塊進行了深度的集成和整合,持續爲PAI客戶提供AI模型訓練相關服務。其中,BeautifulPrompt技術已經作爲SD WebUI的可擴展插件和PAI-EAS在線推理服務進行集成,使得PAI客戶在5分鐘內就可以在PAI-EAS上一鍵部署SD WebUI,使用各種AIGC文圖生成功能。此外,PAI-QuickStart也集成了超過20個熱門大語言模型,及其多種訓練和推理方式,使客戶更加簡單地微調和部署大語言模型。在未來,我們也將在PAI平臺上持續提供業界領先的算法和模型能力給廣大客戶。

論文信息

論文標題:BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis
論文作者:曹庭鋒、汪誠愚、劉冰雁、吳梓恆、朱金輝、黃俊

論文pdf鏈接:https://arxiv.org/abs/2311.06752

論文標題:Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding
論文作者:徐如瑤、張濤林、汪誠愚、段忠傑、陳岑、邱明輝、程大偉、何曉豐、錢衛寧

論文pdf鏈接:https://arxiv.org/abs/2311.06761

論文標題:From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models
論文作者:嚴俊冰、汪誠愚、張濤林、何曉豐、黃俊、張偉

論文pdf鏈接:https://arxiv.org/abs/2311.06754

論文標題:Sharing, Teaching and Aligning: Knowledgeable Transfer Learning for Cross-Lingual Machine Reading Comprehension
論文作者:曹庭鋒、汪誠愚、譚傳奇、黃俊、朱金輝

論文pdf鏈接:https://arxiv.org/abs/2311.06758

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章