IRT模型學習小結
關於IRT模型
與IRT模型相對應的經典測量理論CCT。經典測量理論與項目反應理論在測量領域均佔有重要地位。經典測量理論形成較早,但是經典測量理論卻有一些難以克服的缺點:
- 能力與觀測分數之間的線性關係假設不合理。
在經典測量理論中認爲被試的能力與測試得到的分數是線性關係的,但是在實際情況中往往不程線性關係。比如我們在進行考試時,想要從50分考到60分很容易,但是想要從90分考到100分卻很難。 - 被試的測驗結果依賴於所施測項目的難度。
被試由於做難易不同的題目而得到不同的分數,在經典測量理論中不同的分數表示不同的能力,這與常理不符。被試的能力不應由於所測題目的難度不同而不同,即,被試的能力應於所測題目的難度無關。 - 無法提供能力不同的被試如何對項目做出反應。
對於已知能力的被試以及已知相關參數的題目,經典測量理論無法給出被試做該道題目的正確或錯誤概率
項目反應理論起源於 20 世紀三十年代,它是針對 CTT 所具有的不足而提出的,其基本思想是建立被試的潛在能力及其在項目上的作答反應之間的關係模型,即項目反應模型。它與經典測量理論相比,具有如下優點:
- 參數具有不變性。
在項目反應理論下,項目的難度參數、區分度參數及被試的能力參數具有不變性。 - 被試的能力水平與項目參數之間關聯化、模型化。
在 IRT 中引入了項目特徵曲線,這將項目難度、項目區分度以及被試的能力進行了有機的統一。 - IRT 定義了信息函數。
IRT 中的信息函數反映了在不同的能力水平處,每個項目所提供的信息量的大小,信息量最大處的能力水平估計誤差最小。 - 被試的能力參數與項目的難度參數具有配套性。
被試的能力參數與項目的難度參數是定義在同一個量表上的,當一個被試的能力參數已知時,配一個項目參數已知的測驗,即可預測被試的正確反應概率。
IRT模型原理
模型介紹
IRT模型是用於評估被試對某一項目或某一類項目的潛在特質。
IRT模型是建立在一定的假設之下:
- 單維性假設,即假設某個測驗只測量被試的某一種能力。
- 立性假設,即假設被試在每一個項目上的作答反應是相互獨立,互不影響的,作答反應只與被試自身的能力水平有關,與其他元素無關。
- 模型假設,即被試在項目上的正確反應概率與被試的能力水平有一定的函數關係。
被選擇用來表示這種關係的函數比較多,用的比較多的是logistic模型,根據參數參數個數不同,可以分爲單參數、雙參數和三參數logistic模型。
IRT三參數logistic模型爲:
該模型的曲線如下:
其中相關參數的定義如下
參數 | 定義 | 簡單解釋 |
---|---|---|
d | 常數 1.702 | |
a_i | 項目的區分度係數 | 表示項目或題目的區分度,在曲線中影響曲線中部的斜率,當斜率越小,那麼就很難將被試的測試分數結果區分開 |
b_i | 項目的難度係數 | 表示項目或題目的難度,在曲線中代表曲線橫軸方向的位移,難度係數越大,則被試想要獲得比較高的分數就需要比較高的能力 |
c_i | 項目的猜測係數 | 表示即使被試對測試的項目一點先驗知識都沒有,靠蒙也能蒙對的概率,比如選擇題有0.25的概率纔對 |
被試的能力值 | 表示被試在項目或題目所要考覈的知識點或能力方面的掌握程度 | |
被試做對該項目的概率 |
在使用IRT模型對被試進行能力評估的過程中,關鍵在於對參數的估計,包括對項目參數,,,以及被試能力參數的估計。
參數估計
IRT模型的參數估計方法有很多,包括極大似然估計,EM算法,貝葉斯算法等,本文將簡單介紹使用極大似然估計方法進行參數估計過程。
在使用極大似然對IRT模型的項目參數和能力參數進行估計時,一般是當項目參數已知時,對能力參數進行極大似然估計,或當能力參數已知時,對項目參數進行極大似然估計。當項目參數和能力參數均未知時,則使用交替估計的方法來估計IRT模型的參數。大致步驟如下:
- 獲取得分矩陣
獲取被試的得分矩陣,如下:
User | … | ||||
---|---|---|---|---|---|
1 | 0 | 1 | … | 1 | |
0 | 0 | 1 | … | 0 | |
1 | 1 | 1 | … | 0 | |
… | … | … | … | … | … |
0 | 1 | 1 | … | 1 |
其中表示第n個被試,表示第m個項目,表格中的0表示被試n做錯了項目m,1表示被試n做對了項目m。
- 參數估計
假設當項目的區分度係數,難度係數,猜測係數均已知時,將上面得分矩陣中的做題結果數據和已知的區分度係數,難度係數,猜測係數代入IRT模型中,建立能力參數的極大似然函數
式中,即爲IRT模型函數得到的答對概率,即爲上述得分矩陣中被試真實是否答對的標籤。將該函數取對數,得到
對上述對數極大似然函數進行求導,便可計算得到能力參數。
如果區分度係數,難度係數,猜測係數和能力系數均未知,則可爲其中一方設置初始值,然後不斷迭代計算出各個參數,或者建立聯合極大似然函數進行估計。
應用場景
- 學習效果評估
在教育機構中,可以根據學生以往的做題情況,比如學生對某一知識點的相關題目的做題正確和錯誤情況數據,用IRT模型來估計出學生在該知識點上的能力值,從而瞭解學生的學習效果。 - 試卷的設計與修改
項目信息函數能夠描述給處於某一能力值的被試提供一個測試或者一個項目的測量有效性。
項目信息函數
測試信息函數
測試信息函數是項目信息函數的累加。項目信息函數或測試信息函數值越大,表示該項目或測試對與該能力的學生能夠反應越多的信息。據此來設計和修改得到更加有效的試卷或選擇試題。 - 計算機自適應測試
在學生進行在線測試時,收集用戶在線測試的實時信息來更新學生的能力,然後使用項目信息函數來選擇更加有效的題目來提供給學生,從而達到更好的測試和學習效果