機器學習驅動的語言測試

Settles, Burr & LaFlair, Geoffrey & Hagiwara, Masato. (2020). Machine Learning–Driven Language Assessment. Transactions of the Association for Computational Linguistics. 8. 247-263. 10.1162/tacl_a_00310.

這篇學術論文發表在今年4月份的《計算機語言學協會學報》上,這是人工智能和自然語言處理領域的頂級期刊。文章主要介紹瞭如何利用機器學習和自然語言處理技術建立一個自適應的在線英語語言能力評估系統(也就是多鄰國英語測試),同時釋放人力。

背景

Item Response Theory (IRT, 項目反應理論或潛在特質理論)

IRT是心理測量學領域中的一個模型,它用來分析受試者的潛在特質和其他認知因素。作者使用的是一個簡單的邏輯項目反應函數Rash model。pi(θ)p_{i}(\theta)是正確相應項目ii的概率,δ(i)\delta_(i)是項目難度,θ\theta是受試者潛在能力。
pi(θ)=11+exp(δiθ)(1)p_{i}(\theta)=\frac{1}{1+exp(\delta_i-\theta)} \qquad (1)
Rash model的響應模式如Figure 1所示。
Figure 1:Figure 1
這個圖符合我們正常的認知,受試者的潛在能力越強,他正確響應題目的概率越高;題目難度越高,受試者正確響應題目的概率越低。Rash model 相當於一個二分類的邏輯迴歸模型,用於預測受試者是否能夠正確響應項目ii

Computer-adaptive testing (CAT,計算機自適應測試)

CAT的目的是以最少的題目儘可能準確的評估測試者的能力。所謂自適應就是根據受試者對當前題目的答題情況,自動決定下一道題目的難度。顯然需要有一個數據集,裏面存放好各種題目和每道題目對應的難度係數。
假設每個測試題目間是相互獨立的,一個項目響應序列r=<r1,r2,...,rt>\textbf{r}=<r_1,r_2,...,r_t>在給定的潛在能力特質θ\theta上的條件概率是每一個題目的IRF概率的乘積。
p(rθ)=i=1tpiθri(1piθ)1ri(2)p(r|\theta)=\prod^{t}_{i=1}p_i\theta^{r_i}(1-p_i\theta)^{1-r_i}\qquad (2)
其中rir_i表示對題目ii的響應,即回答正確,ri=1r_i=1; 回答錯誤,ri=0r_i=0θ\theta的正確率依賴於rr中的項,當δiθ\delta_i\approx\theta時,受試者被正確的評價(譯者注:當難度係數正確匹配到受試者的潛在能力,就能給出一個對受試者最合理的評價)。但是,由於精確的θ\theta是未知的,作者使用了一個迭代自適應算法。首先,進行一個臨時的估計,最大化對題目tt響應正確的可能性θ^tagrmaxθp(rtθ)\hat\theta_t\propto agrmax_\theta p(r_t|\theta)。然後基於一個當前估計的θt+1=f(θ^t)\theta_{t+1}=f(\hat\theta_t)選擇下一個題的難度。重複這個過程一直到達到停止的標準,最終會根據θ\theta給出最終的成績。概念上講,CAT類似於ML/NLP中的主動式學習,它的目的是通過自適應選擇樣本縮小需要付出的努力去訓練出一個精確的分類器。

The Common European Framework of Reference (CEFR, 歐洲語言共同參考框架)

多鄰國測試的測試結果與CEFR標準的對應關係如Table 1所示。
Table 1:在這裏插入圖片描述

譯者注:
1. 關於CEFR的描述我就略掉了。簡單來說,CEFR是由歐洲語言測試者協會(ALTE)於2001年首次發佈的一套建議標準,用來評估語言學習者在所學語言的成就,用來描述語言學習者具有什麼水平的語言能力及他們的語言水平能夠從事什麼樣的活動。同時也給予一個教育上的評估方針。許多考試都會將自己的分數與這個參考框架做對應,見補充圖1。
補充圖1:在這裏插入圖片描述
2.本文接下來的行文思路就是介紹如何將多鄰國的詞彙測試和文章測試題目的難度等級與CEFR對應。

測試結構和測試形式

這一節主要是介紹了多鄰國的考試題型,一共11個題型,分別對應聽,說,讀,寫和詞彙量。很多關於多鄰國考試的介紹都有相關的內容,在這裏就不再翻譯了。

The Vocabulary Scale 詞彙評級

爲了這一部分的實驗,一個有着ESL(English as a second language)教學經驗的語言學博士小組, 通過總結自己之前的教學經驗,編制出了一個CERF詞彙表。這個詞彙表提供了6823個英文單詞,每一個單詞都標記了對應CEFR等級的標籤,其中大部分在B1/B2範圍內。他們使用這個有標籤的單詞列表去訓練一個詞彙評級模型,爲每一個yes/no 測試選項分配一個δ\delta,如Figure 2。(譯者注:yes/no 測試題在原版論文的2.4節有介紹,就是給定一些自動生成的假的單詞和真的單詞,受試者需要選擇出所有真的單詞,不需要了解單詞的含義)

Figure 2:在這裏插入圖片描述

特徵

Culligan根據多個詞彙測試的IRT發現,字符長度和語料庫的頻率可以用於預測單詞的難度。這使得這些特徵可以有效的應用於本文提出的基於CEFR的詞彙評級模型中。
雖然字符長度是非常直觀的,但是預料庫頻率這一特徵只存在在真實的英文單詞中。然而,本文同樣需要假單詞的語料庫頻率這一特徵,因爲我們的yes/no 測試要求受試者從假單詞中區別出真單詞。作爲頻率的代替物,我們在公開的電影字幕語料庫中通過使用修改版的Kneser-Ney 平滑算法訓練了一個基於馬爾科夫鏈的語言模型。作者使用這個對數似然函數值作爲這個模型的一個特徵。
作者也使用這個語言模型中單詞的Fisher score去生成更多的具有微妙差別的正交特徵。單詞xx的Fisher score δx\delta_x是一個表示它的對數似然函數值梯度的向量,由m\textbf{m}進行參數化:Δx=mlogp(xm)\Delta_x=\frac{\partial}{\partial m}log p (x|\textbf{m})。這些特徵在概念上與TFIDF中的三元組相似,並且受先前工作的啓發,利用生成的序列模型中的信息去提高判別式分類器的性能。

模型

作者考慮使用兩種迴歸方法進行詞彙評級建模:線性和softmax加權。令yxy_x是單詞xx的CEFR等級,δ(yx)\delta_(y_x)是對應這個等級的百分制的數值,見Table 1 。
對於線性方法,我們令難度係數δx=δ(yx)\delta_x=\delta(y_x),使用直接作用在特徵x上的權重w學習出一個線性函數。對於softmax加權的方法,我們訓練一個六次多項迴歸分類器去預測CEFR等級,使得難度係數δx=yδ(y)p(yx,w)\delta_x=\sum_y\delta(y)p(y|x,\textbf{w})作爲後面的p(yx,w)p(y|x,\textbf{w})的權重之和。

實驗

詞彙評級模型的性能測試結果如Table 3所示。
Table 3: 在這裏插入圖片描述
我們使用模型預測值和專家判別的CEFR等級之間的皮爾遜相關係數rr作爲一個評價指標。rallr_{all}是訓練集和測試集使用相同數據的結果,這是語言學領域中分析模型的方式,它可以給出模型捕獲真單詞的難度係數的能力。rxvr_{xv}是使用十交叉驗證的結果,這個是ML/NLP領域中分析模型的方式,它可以給出模型捕獲假單詞和未曾出現在CEFR單詞列表裏面的單詞的難度係數的能力。
雖然模型在合成的和沒有出現在單詞列表裏面的單詞身上表現出的性能不是特別好(rxv0.60r_{xv}\le0.60),兩種迴歸模型都表現出健壯的正相關(rall.90r_{all}\ge.90)。線性迴歸與softmax迴歸相比表現出明顯的過擬合,因爲它在訓練集上的測試結果近乎完美,而在十交叉驗證上的測試結果中出現了一些偏差。特徵消融的結果也揭示出Fisher score特徵非常的重要而字符長度的影響較小(大概是因爲字符長度被含蓄的包含在了Fisher score特徵中)。
Softmax加權方法預測的單詞評級示例展示在Table 4中。越高級的單詞(higher δ\delta)越罕見並且大多數都含有希臘拉丁語詞源;越低級的單詞越常見,並且大多數詞源來自於英國本土。這些特徵也表現在一些不存在的假單詞身上(比如:‘cload’比‘fortheric’更像英國本土的單詞且更加常見)。雖然我們不進行任何假單詞難度的正式分析,但是這些結果可以說明我們的方法捕獲到了英語詞彙的微妙之處,因爲它能很好的將詞彙對應到CEFR等級。
Table 4: 在這裏插入圖片描述
我們的學習模型和專家的評判結果之間的關係的可視化箱形圖展示在Figure3(a)中。誤差定性分析說明,大部分的錯分類是由於一詞多義的原因。比如:‘a just cause’ (C1) vs. ‘I just left (δ=24\delta = 24)’ 和 ‘to part ways’ (vs.) ‘part of the way’ (δ=11\delta = 11)。 因爲這些更基本的詞義確實是存在的,所以我們的相關性估計結果可能是保守的。綜上分析,使用我們的學習模型預測的單詞的難度應用於yes/no 項目中證明是可行的。
Figure 3: 在這裏插入圖片描述

The Passage Scale 文章評級

在這一節的實驗中,我們利用一個從在線資源中搜集的多樣的語料庫,和使用迴歸和排序結合的技術去訓練文章評級模型。這些方法可以用於預測c-test,聽寫和演說測試題目中,如Figure 4。(具體的題目類型和要求可以去查閱一下有關多鄰國考試的信息)
Figure 4: 在這裏插入圖片描述
與詞彙相比,很少有描述CEFR文本的工作和論述特徵,所以可用於訓練的具有CEFR標籤的文本材料非常少,因此作者選擇使用半監督學習方法。首先,通過學習整體難度給文檔排序,然後通過一些有CEFR等級標籤的文本給更多的具有相似特徵的文本打標籤。

特徵

平均單詞長度和句子長度一直被用來預測文本的難度,事實上,僅僅依靠這些特徵,測試的結果就已經成正相關了(r=0.91r=0.91)。受前述詞彙評級模型實驗的啓發,我們同樣訓練出一個單詞級別的unigram語言模型去產生對數似然函數值和Fisher score 特徵。

語料庫

從在線英語自學網站上,作者收集了一個初始訓練語料庫。它們由參考的短語和閱讀理解中的練習文本組成,所有的文檔都標有CEFR等級。作者切割這些文檔,併爲每一段標註這個文檔的CEFR等級,以此作爲該段落的難度標籤。由此,獲得了一個包含3049個具有CEFR等級標籤的段落,其中有極少量的A1水平的文本段落和非常多的C1水平的文本段落。作者稱這個語料庫爲CEFR。
由於CEFR語料庫的規模較小並且其中文本的出處不確定,作者從維基百科和簡版維基百科(維基百科的替代版本,主要供兒童和成人英語學習者閱讀)中下載了成對的文章。雖然這些文章對應的CEFR水平不確定,作者可以假設維基百科的難度要高於簡版維基百科的難度,因此通過比較每一對文章,模型可以學習與文章段落難度相關的特徵,從而爲它們打上CEFR標籤(除了那些超出CEFR語料庫覆蓋話題的文章)。這個語料庫包含3730篇文章,18085個段落。作者稱這個語料庫爲WIKI語料庫。
作者還從Tatoeba上下載了成千上萬條英文例句。Tatoeba是一個免費的在線數據庫,收集面向外語學習者的例句。作者稱這個語料庫爲Tatoeba語料庫。

文章難度排名實驗

爲了給文章的複雜度進行排名作者使用了一個和Sculley相似的方法。令x\textbf{x}是一個具有CEFR水平標籤yy的文本的特徵向量。一個標準的線性迴歸方程可以學到一個權重向量ww, 比如 δ(y)xTw\delta(y) \approx\textbf{x}^\textbf{T}\textbf{w}。給定一對文本,可以通過一個合成標籤給文本進行難度排名並且計算出兩個文本之間的特徵差異。這個差異結果可以應用到其他的簡單文本中以給他們的難度進行排名。雖然這個預測的結果並不是完全的準確,但是它仍然可以被用來對整體的文本複雜度進行排名。
爲了訓練排名模型,從CEFR語料庫中抽取1%的樣本,把它與所有的WIKI樣本相結合。設置簡版維基百科中的段落δy=25\delta_y=25, 對應CEFR等級爲A2/B1; 正常維基百科中的段落 δy=75\delta_y=75,對應的CEFR等級爲B2/C1。
模型的十交叉驗證結果如Table 5所示。這個結果中同樣揭示出Fisher score起着很重要的作用,雖然它降低了在CEFR語料庫上的正確率,提高了在WIKI語料庫上的正確率。作者認爲這是因爲WIKI語料庫上的樣本是平衡的(所有的文章在兩個站點的網站上都有一個相似的版本),所以單詞和句子長度本身就是很好的判別器。實驗結果顯示,在85%的測試結果中,模型能夠正確的將較難的文章段落排在較簡單的文章段落之前。
Table 5: 在這裏插入圖片描述

文章難度評級實驗

取得文本排名樣本之後,作者使用下述算法爲半監督學習中沒有標籤的樣本打標籤:

  1. 使用排名模型爲所有語料庫中的樣本打分。
  2. 對於每一個CEFR語料庫中的樣本,將它的標籤傳播給與它最近的5個WIKI和TATOEBA語料庫中的樣本。
  3. 把通過傳播的方式打好標籤的樣本與CEFR樣本聯合起來。
  4. 平衡數據集,每一種CEFR等級取5000樣本。
  5. 用最終得到的數據集訓練一個文章評級模型。

評級模型的預測結果和CEFR等級的相關性關係展示在Figure 3(a)中。雖然這個正相關性是非常穩健的,但是這個正相關的估計仍然是保守的,因爲我們在半監督學習傳播CEFR標籤的時候可能引入了一些噪音,比如:C1標籤的文章可能會包含A2等級的段落。
對於WIKI語料庫中的樣本預測的結果示例展示在Table 6中。我們可以看到C-level的文本(δ=90\delta=90)的學術性非常強,它包含許多複雜的句子結構和專業的術語。另一方面,A-level(δ=10\delta=10)的文本更加易懂,它有更短的句子結構,更少的從句和實意單詞。B-level(δ=50\delta=50)的文本介於之間,使用一些基礎的語法去討論了一個政治話題,包含了一些口語詞彙(如,‘underdog’,‘headline’)。
Table 6: 在這裏插入圖片描述

事後驗證實驗

將模型評級的結果與人工評級的結果進行對比,Figure 3(c)的箱形圖顯示這兩個評級結果之間存在正相關性。C1/C2之間的箱形圖差異較小並不奇怪,因爲C1/C2之間的差異本身就很微妙,即使是頗具經驗的專家也很難正確的區分。

多鄰國測試

測試的建設和管理

多領國測試共存儲了25000個測試題目。對於每一種形式的題目,將他們按照難度值的索引分成11份(0-5,6-15,…,96-100),分別放入到11個箱子中。 CAT測試會隨機選擇一個題型作爲第一個測試題目,然後循環操作,決定接下來的測試題目類型(即5種類型的測試具有平等代表權)。每一次測試都是從一個校準階段開始,第一道題目從前兩個箱子中採樣,第二道題目從接下來的兩個箱子中採樣,以此類推。四道題目結束後,使用前文所述的IRT模型,評估出一個暫時的潛在能力值,以此決定下一道題目的難度δi\delta_i, 然後在這個難度的箱子裏隨機的選擇一個樣本作爲下一道測試題目。重複這個過程,直到測試題目超過25道或測試時間超過40分鐘。

測試結果分析

將多鄰國的測試結果分別與IRT中的潛在能力值θ\theta和雅思托福考試的結果進行對比,結果如Figure 5所示。可以看到,所有的對比都是成正相關的。
Figure 5: 在這裏插入圖片描述

成績可靠性

多鄰國考試的可靠性係數如Table 8所示。這些值高到足以被任何適合高風險測試使用。
Internal consistency: 將試題庫一分爲二,受試者分別在這兩套題庫上進行測試,測量兩次測試成績之間的相關性。在Table 8 中可以看到,可靠性的估計值在0.9以上,這個指標達到了用於診斷,就業,學術安排和其他重要目的的要求。
Test-retest: 如果一個受試者多次接受考試,他取得的成績還是否可靠。作者評估了所有在30天內接受兩次考試的考生的成績的相關性。這個參數值在0.8到0.9之間,0.8對於高風險的CAT考試已經足夠了,因爲CAT本身是自適應形式的考試,每次測試會話間的題目是有明顯區別的。
Table 8: 在這裏插入圖片描述

測試題庫的安全性

因爲CAT的自適應特性,只要測試題庫足夠大,它就比其他固定形式的考試更加安全。測試題庫的兩個安全指標分別是題目曝光率和測試重疊率。關於這兩個指標的中位值和均值在Table 9 中展示。
Table 9: 在這裏插入圖片描述
題目的曝光率是指出現在測試中的題目在全體題庫的比率,它的值是0.10%。雖然很少有其他測試機構公佈這個指標供作者進行比較,但是多鄰國的題目曝光率要遠低於無限制連續測試中所推薦的20%。題目重疊率是指不同的受試者做到相同測試題目的比率,它的均值是0.43%(中位數低於0.01%),遠低於其他運營的CAT測試(如GRE)所公佈的11-14%。這些指標說明本文所提出的方法可以提供十分安全的大型測試庫,並且不會影響測試結果的效率和可靠性。

END

關於多鄰國考試的題型介紹和備考方案可以參考這篇文章:
多鄰國考試115分經驗分享:如何用兩週時間從雅思轉考多鄰國.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章