GLUE: 自然語言理解的標杆

官網: https://gluebenchmark.com/leaderboard

自然語言處理領域在各個子任務上都有相應的榜單和標杆數據集,但放眼望去,General Language Understanding Evaluation (GLUE) 又是其中最爲突出和亮眼的。不僅是因爲數據規範,體量龐大,更是因爲它同時集合了多個子任務,全方位考驗模型的能力。幾乎所有近年來的大型預訓練模型都以在 GLUE 上實現 SOTA 爲目標,可見其權威性和領導力。

數據集 全稱 領域 簡介 體量
CoLA The Corpus of Linguistic Acceptability Single-sentence Classification 判斷一個句子是否語法正確,二分類任務 10,657 sentences
SST-2 The Stanford Sentiment Treebank Single-sentence Classification 判斷一條電影評論積極或消極,二分類任務 11,855 sentences
STS-B Semantic Textual Similarity Benchmark Text Similarity 使用 1~5 的整數來表示兩個句子的語義相似度,既能看作迴歸任務,也能看作五分類任務 8,628 sentence pairs
QQP Quora Question Pairs) Pairwise Text Classsification 判斷兩個句子是否語義相同,二分類任務 > 400,000 sentence pairs
MRPC Microsoft Research Paraphrase Corpus Pairwise Text Classsification 判斷兩個句子是否語義相同,二分類任務 5,800 sentence pairs
RTE Recognizing Textual Entailment) Pairwise Text Classsification 判斷兩個句子是否能夠推斷/對齊,二分類任務 -
MNLI Multi-Genre Natural Language Inference Pairwise Text Classsification 判斷兩個句子語義上的 entailment/contradiction/neutral,三分類任務 433,000 sentence pairs
WNLI Winograd Natural Language Inference Pairwise Text Classsification 判斷兩個句子的語義相似性,二分類任務 635 sentence pairs
QNLI Question Natural Language Inference Relevance Ranking 前身是SQuAD1.0,給定問題,從給定的文段中挑選出包含答案的 Top 1 選項,二分類任務 >100,000 sentence pairs

牆內的朋友暫時沒有辦法查看榜單分佈,在這裏轉載一下:(最近更新 2020/05/27)
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章