SELECTION VIA PROXY: EFFICIENT DATA SELECTION FOR DEEP LEARNING 思考REID 數據考量

前幾天對行人重試別進行了分類,從數據、特徵、目標函數角度作爲研究的重點。

這篇文章給涉及到訓練數據的選擇,可不可以在target中尋找少數量的樣本進行標記,但是卻能達到很好的效果呢?

在讀這篇論文的時候,遇到了一些新的內容,包括如下:

active learning

core-set selection

least confidence uncertaintly sampling

greedy k-centers

 

    這裏的active learning 主動學習,是指在訓練模型的過程中,一邊訓練,一邊尋找unlabel 數據中的一個或者一批,然後對這些數據進行標記,然後將這些數據再放到訓練集中,進行訓練。active learning 在訓練的過程中,包括五個部分,分別是要訓練的模型、未標記的數據集、已經標記的數據集、判定數據對目標模型的作用效果大小的模型、對無標記數據打標籤的指導者。核心就是選擇數據中的一部分最有價值的數據送入模型進行訓練。下面這個圖很好的描述了這個過程:

 

 

這裏的oracle,代表着給數據打標籤的部分。

在瞭解least confidence uncertainly sampel 的時候,需要先了解置信度和置信區間的內容。就看了看置信度和置信區間的內容,到知乎上搜索就有不錯的回答。

這裏又涉及了貪心算法的內容,greedy algorithm ,貪心算法就是在求解最優解的時候,是從局部看問題的的,每一步只選擇當前情況下的最優解,是局部的最優解,貪心法的求解過程大概可以表述爲:

Greedy(C)  //C是問題的輸入集合即候選解集合
{
    S={ };  //初始解集合爲空集
    while (not solution(S))  //集合S沒有構成問題的一個解
    {
       x=select(C);    //在候選集合C中做貪心選擇
       if feasible(S, x)  //判斷集合S中加入x後的解是否可行
          S=S+{x};
          C=C-{x};
    }
    return S;
}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章