SELECTION VIA PROXY: EFFICIENT DATA SELECTION FOR DEEP LEARNING 思考REID 数据考量

前几天对行人重试别进行了分类,从数据、特征、目标函数角度作为研究的重点。

这篇文章给涉及到训练数据的选择,可不可以在target中寻找少数量的样本进行标记,但是却能达到很好的效果呢?

在读这篇论文的时候,遇到了一些新的内容,包括如下:

active learning

core-set selection

least confidence uncertaintly sampling

greedy k-centers

 

    这里的active learning 主动学习,是指在训练模型的过程中,一边训练,一边寻找unlabel 数据中的一个或者一批,然后对这些数据进行标记,然后将这些数据再放到训练集中,进行训练。active learning 在训练的过程中,包括五个部分,分别是要训练的模型、未标记的数据集、已经标记的数据集、判定数据对目标模型的作用效果大小的模型、对无标记数据打标签的指导者。核心就是选择数据中的一部分最有价值的数据送入模型进行训练。下面这个图很好的描述了这个过程:

 

 

这里的oracle,代表着给数据打标签的部分。

在了解least confidence uncertainly sampel 的时候,需要先了解置信度和置信区间的内容。就看了看置信度和置信区间的内容,到知乎上搜索就有不错的回答。

这里又涉及了贪心算法的内容,greedy algorithm ,贪心算法就是在求解最优解的时候,是从局部看问题的的,每一步只选择当前情况下的最优解,是局部的最优解,贪心法的求解过程大概可以表述为:

Greedy(C)  //C是问题的输入集合即候选解集合
{
    S={ };  //初始解集合为空集
    while (not solution(S))  //集合S没有构成问题的一个解
    {
       x=select(C);    //在候选集合C中做贪心选择
       if feasible(S, x)  //判断集合S中加入x后的解是否可行
          S=S+{x};
          C=C-{x};
    }
    return S;
}

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章