微軟和谷歌的人工智能,在SuperGLUE基準測試中超越了人類

大數據文摘出品

來源:venturebeat

編譯:千雪

2019年底,Facebook、紐約大學、華盛頓大學和DeepMind的研究人員聯合提出了SuperGLUE,這是人工智能的一個新基準,旨在總結多種語言任務的研究進展。

基於一年前推出的GLUE基準,SuperGLUE包含了一系列更難理解的語言挑戰、改進的資源和公開的排行榜。

當SuperGLUE剛被推出時,排行榜上表現最佳的模式和人類表現之間有近20個百分點的差距。但截至1月初,有兩個模型:微軟的DeBERTa和谷歌的T5 + Meena——已經成爲第一個超越人類基線的模型

紐約大學數據科學中心(center for data science)助理教授Sam Bowman表示,這一成就反映了機器學習領域的創新,其中包括自我監督學習,也就是讓模型從未標記的數據集中學習,並將其應用於目標任務。“這些數據集反映了一些兩年前就免費提供的最難監督的語言理解任務,”他說。

“我們沒有理由相信SuperGLUE能夠檢測到自然語言處理的進一步進展,至少不能完全相信。”

但SuperGLUE測試並不是完美的,也不是一種完整的人類語言能力測試。

在一篇博客文章中,DeBERTa背後的微軟團隊自己指出,他們的模型“絕不可能”達到人類的自然語言理解智能水平。他們說,這都需要繼續研究突破,以及用新的基準來衡量它們及其影響。

SuperGLUE

正如研究人員在介紹SuperGLUE的論文中寫的那樣,他們的基準是一種簡單的、難以博弈的衡量標準,用來衡量通用英語理解技術的進步。它包括八個語言理解任務,這些任務來自於現有的數據,並附有一個性能指標和一個分析工具包。

這些任務是:

布爾問題(BoolQ)要求模型對一篇包含問題答案的維基百科短文作出迴應。這些問題來自谷歌用戶,他們通過谷歌搜索提交問題。

承諾銀行(CommitmentBank,CB)任務,是識別來自《華爾街日報》等文本摘錄中包含的假設,並確定該假設是否成立。

似是而非的選擇(COPA),提供了一個關於博客和攝影相關百科全書主題的前提語句,模型必須從兩個可能的選擇中確定因果關係。

多句閱讀理解(MultiRC)是一個問答任務,每個例子由一個上下文段落、一個關於該段落的問題和一系列可能的答案組成。模型必須預測哪些答案是正確的,哪些是錯誤的。

利用常識進行閱讀理解推理(ReCoRD),模型可以從CNN和每日郵報的文章選擇列表中預測出隱藏的單詞和短語。在那些選項中,相同的單詞或短語可能會以多種不同的形式表達出來,所有這些都被認爲是正確的。

識別文本(RTE)對自然語言模型提出了一個挑戰,即鑑定一個文本摘錄來自於另一個文本摘錄的真實性。

上下文中的詞 (WiC)爲模型提供了兩個文本片段和一個多義詞(具有多種含義的詞),並要求模型確定在兩個句子中該詞是否具有相同的意思。

Winograd Schema Challenge (WSC),在這個任務中,會給定一些小說中的段落,模型必須回答關於歧義代詞的先行詞的多項選擇題,它是爲了改進圖靈測試而設計的。

SuperGLUE還試圖用帶有Winogender的模型來衡量性別偏見。Winogender是指僅因句子中一個代詞的性別而內容不同的句子對。然而,研究人員注意到這種方法有侷限性,因爲它只提供了積極的預測價值:雖然偏差分數低是模型表現出性別偏見的明顯證據,但好的分數並不意味着模型沒有偏見。此外,它並不包括所有形式的性別或社會偏見,這導致它只是一個粗糙的偏見衡量標準。

爲了建立人類表現基線,研究人員借鑑了WiC、MultiRC、RTE和ReCoRD的現有文獻,並通過亞馬遜的Mechanical Turk平臺聘請了crowdwork註釋員。每個工人的平均工資是每小時23.75美元,他們先進行了一個簡短的培訓,然後用說明書和FAQ(常見問題)頁面對選定的測試集註釋了多達30個樣本。

實施改進

谷歌團隊沒有詳細說明是什麼改進導致了他們的模型在SuperGLUE上創紀錄的表現,但DeBERTa的微軟研究人員在今天早上發表的一篇博客文章中詳細說明了他們的工作。DeBERTa並不是全新的——它去年開源過——但是研究人員說他們訓練了一個包含15億個參數(模型用來做預測的內部變量)的更大版本。它將以開源的形式發佈,並集成到下一個版本的微軟圖靈自然語言表示模型中,該模型支持Bing、Office、Dynamics和Azure認知服務等產品。

DeBERTa通過蒙面語言建模(MLM)進行預訓練,這是一項填空任務,在這項任務中,會教導模型使用蒙面“標記”周圍的單詞來預測蒙面單詞應該是什麼。DeBERTa同時使用了上下文詞的內容和位置信息,因此它能夠識別句子中的“商店”和“商場”。例如“在新商場旁邊開了一家新商店”,它能夠識別出“商場”和“商店”這兩個扮演的不同句法角色。

與其他一些模型不同,DeBERTa解釋了單詞在語言建模過程中的絕對位置。此外,它還計算模型中轉換輸入數據的參數,並根據單詞的相對位置來度量單詞依賴性的強度。例如,DeBERTa會理解“deep”和“learning”兩個詞相鄰出現時的依賴性要比出現在不同的句子中時強得多。

DeBERTa還受益於對抗性訓練,這是一種利用對抗性例子的技術,這些例子來源於訓練數據的微小變化。在訓練過程中,將具有對抗性的例子輸入到模型中,提高了模型的可推廣性。

微軟的研究人員希望下一步繼續探索如何使DeBERTa能夠概括出新的子任務或基本的解決問題技能,這一概念被稱爲組合泛化。其中一種方法可能是更明確地結合所謂的組合結構,這就可能需要將人工智能與符號推理結合起來——換句話說,根據數學和邏輯規則來操縱符號和表達式。

微軟研究人員寫道:“DeBERTa在SuperGLUE上超越人類的表現,標誌着通用人工智能的一個重要里程碑。但與DeBERTa不同的是,人類非常善於利用從不同任務中學到的知識來解決一項新任務,而不需要或很少需要特定任務的演示。”

新基準

Bowman說,目前還沒有能接替SuperGLUE的新基準。但人工智能研究領域的共識是,未來的基準,特別是語言領域的基準,如果要有用,就必須考慮更廣泛的道德、技術和社會挑戰。

例如,許多研究表明,流行的基準在評估現實世界的AI性能方面表現不佳。最近一份報告發現,自然語言處理模型給出的答案中有60%-70%嵌入到基準訓練集中,這表明模型通常只是簡單地記憶答案。另一項對3000多篇人工智能論文的元分析研究發現,用於衡量人工智能和機器學習模型的指標往往不一致,跟蹤不規則,信息量也不是特別大。

問題的部分原因在於,OpenAI的GPT-3、谷歌的T5 + Meena和微軟的DeBERTa等語言模型,都通過內化公共網絡上的例子來學習編寫類似人類的文本。而藉助電子書、維基百科(Wikipedia)和Reddit等社交媒體平臺,他們可以推斷出完整的句子,甚至整個段落。

因此,語言模型往往會放大這些公共數據中的偏見;部分培訓數據通常來自普遍存在性別、種族和宗教偏見的社區。人工智能研究公司OpenAI指出,這可能導致一些露骨下流的詞被放在女性代詞附近,“伊斯蘭教”被放在“恐怖主義”的附近。其他研究,如英特爾、麻省理工學院和加拿大人工智能倡議CIFAR研究人員在今年4月發表的一項研究,已經發現來自一些最流行模型的高度刻板偏見,包括谷歌的BERT和XLNet、OpenAI的GPT-2,還有Facebook的RoBERTa。米德爾伯裏國際問題研究所(Middlebury Institute of International Studies)認爲,這種偏見可能會被惡意行爲者利用,通過傳播錯誤信息和徹頭徹尾的謊言來煽動不和諧,從而使個人變得激進,形成暴力的極右極端主義意識形態和行爲。

大多數現有的語言基準測試都無法捕捉到這一點。在SuperGLUE問世兩年來的研究結果的推動下,也許未來的研究會更進一步。

相關報道:

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展互聯網(城市)雲腦研究計劃,構建互聯網(城市)雲腦技術和企業圖譜,爲提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角“閱讀原文”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章