論文Scaling Up Crowd-Sourcing to Very Large Datasets A Case for Active Learning提出兩種AL算法。
首先找到分類器θ對未標註數據的不確定程度。然後讓crowd對這些數據進行標定。下邊介紹兩種不確定性方法。
下邊的u是未標記數據,但是是指未標註數據的每一個,而不是整體。
一:Uncertainty Algorithm
第二項計算公式:
二:MinExpError Algorithm
所以說MinExpError scores算法結合了,question的難度(不確定性)和這個回答能夠提高我們分類器的結果的程度(影響較大的數據)。