官網: https://gluebenchmark.com/leaderboard
自然語言處理領域在各個子任務上都有相應的榜單和標杆數據集,但放眼望去,General Language Understanding Evaluation (GLUE) 又是其中最爲突出和亮眼的。不僅是因爲數據規範,體量龐大,更是因爲它同時集合了多個子任務,全方位考驗模型的能力。幾乎所有近年來的大型預訓練模型都以在 GLUE 上實現 SOTA 爲目標,可見其權威性和領導力。
數據集 | 全稱 | 領域 | 簡介 | 體量 |
---|---|---|---|---|
CoLA | The Corpus of Linguistic Acceptability | Single-sentence Classification | 判斷一個句子是否語法正確,二分類任務 | 10,657 sentences |
SST-2 | The Stanford Sentiment Treebank | Single-sentence Classification | 判斷一條電影評論積極或消極,二分類任務 | 11,855 sentences |
STS-B | Semantic Textual Similarity Benchmark | Text Similarity | 使用 1~5 的整數來表示兩個句子的語義相似度,既能看作迴歸任務,也能看作五分類任務 | 8,628 sentence pairs |
QQP | Quora Question Pairs) | Pairwise Text Classsification | 判斷兩個句子是否語義相同,二分類任務 | > 400,000 sentence pairs |
MRPC | Microsoft Research Paraphrase Corpus | Pairwise Text Classsification | 判斷兩個句子是否語義相同,二分類任務 | 5,800 sentence pairs |
RTE | Recognizing Textual Entailment) | Pairwise Text Classsification | 判斷兩個句子是否能夠推斷/對齊,二分類任務 | - |
MNLI | Multi-Genre Natural Language Inference | Pairwise Text Classsification | 判斷兩個句子語義上的 entailment/contradiction/neutral,三分類任務 | 433,000 sentence pairs |
WNLI | Winograd Natural Language Inference | Pairwise Text Classsification | 判斷兩個句子的語義相似性,二分類任務 | 635 sentence pairs |
QNLI | Question Natural Language Inference | Relevance Ranking | 前身是SQuAD1.0,給定問題,從給定的文段中挑選出包含答案的 Top 1 選項,二分類任務 | >100,000 sentence pairs |
牆內的朋友暫時沒有辦法查看榜單分佈,在這裏轉載一下:(最近更新 2020/05/27)