GLUE: 自然語言理解的標杆

原創

2020-06-14 06:26

官網: https://gluebenchmark.com/leaderboard

自然語言處理領域在各個子任務上都有相應的榜單和標杆數據集，但放眼望去，General Language Understanding Evaluation (GLUE) 又是其中最爲突出和亮眼的。不僅是因爲數據規範，體量龐大，更是因爲它同時集合了多個子任務，全方位考驗模型的能力。幾乎所有近年來的大型預訓練模型都以在 GLUE 上實現 SOTA 爲目標，可見其權威性和領導力。

數據集	全稱	領域	簡介	體量
CoLA	The Corpus of Linguistic Acceptability	Single-sentence Classification	判斷一個句子是否語法正確，二分類任務	10,657 sentences
SST-2	The Stanford Sentiment Treebank	Single-sentence Classification	判斷一條電影評論積極或消極，二分類任務	11,855 sentences
STS-B	Semantic Textual Similarity Benchmark	Text Similarity	使用 1~5 的整數來表示兩個句子的語義相似度，既能看作迴歸任務，也能看作五分類任務	8,628 sentence pairs
QQP	Quora Question Pairs)	Pairwise Text Classsification	判斷兩個句子是否語義相同，二分類任務	> 400,000 sentence pairs
MRPC	Microsoft Research Paraphrase Corpus	Pairwise Text Classsification	判斷兩個句子是否語義相同，二分類任務	5,800 sentence pairs
RTE	Recognizing Textual Entailment)	Pairwise Text Classsification	判斷兩個句子是否能夠推斷/對齊，二分類任務	-
MNLI	Multi-Genre Natural Language Inference	Pairwise Text Classsification	判斷兩個句子語義上的 entailment/contradiction/neutral，三分類任務	433,000 sentence pairs
WNLI	Winograd Natural Language Inference	Pairwise Text Classsification	判斷兩個句子的語義相似性，二分類任務	635 sentence pairs
QNLI	Question Natural Language Inference	Relevance Ranking	前身是SQuAD1.0，給定問題，從給定的文段中挑選出包含答案的 Top 1 選項，二分類任務	>100,000 sentence pairs

牆內的朋友暫時沒有辦法查看榜單分佈，在這裏轉載一下：(最近更新 2020/05/27)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

GLUE: 自然語言理解的標杆

支持向量機(SVM)綜合

自然語言處理綜合

KBQA: 趨勢淺談

Transformer, Transformer-XL, XLNet: 追溯XLNet的前世今生

系統交互摘要

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結