决策树和SVM及提升方法相关问题

决策树若干问题

  1. 请简述参数估计两大学派: 频率主义学派和贝叶斯学派的区别.
    简要的说,频率主义学派和贝叶斯学派探讨【不确定性】这件事时的出发点与立足点不同:
    频率主义学派认为事物本身是服从一个分布的(分布是未知的),这个分布的参数是固定的,因此,我们知道这个分布的参数是固定的,那么我们要做的就是考虑哪个值最有可能是那个参数值呢,于是就有了“最大似然”和“置信区间”这样的概率理论,从名字就可以看出来它们关心的就是我们有多大把握去找出那个唯一的真实参数。
    而贝叶斯学派认为,我们并没有“上帝视角”,我们不能够确定这些数据是用哪个固定参数值造出来的(参数是随机的),因此它们关心的是参数空间的每一个值,给这些值一些它们认为合理的假设值(先验分布),然后在去做实验(证据),不断地调整自己的假设,从而得到最后结果(后验分布)。
    所以频率主义学派最常关心的是似然函数,而贝叶斯学派最常关心的是后验分布
    总而言之,两者各有优缺点,频率主义学派更具客观性、无偏性,在一些保守领域更具优势,而贝叶斯学派更容易构建些复杂的模型。当然频率主义学派的太过于看中客观事实,以至于容易被现实欺骗,比如掷硬币,掷了无数次都是正面,从频率学派的角度就会认为正面出现的概率为1;而贝叶斯学派太过于幻想,以至于想象中的很多东西很难实现,例如很难准确判断参数的先验分布。

2.请论述ID3, C4.5, CART 这三种算法区别, 优点与缺点.

ID3 :其核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征——信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。
在建立决策树的过程中,根据特征属性划分数据,使得原本“混乱”的数据的熵(混乱度)减少,按照不同特征划分数据熵减少的程度会不一样。在ID3中选择熵减少程度最大的特征来划分数据,也就是“最大信息熵增益”原则。
优点:算法较为简单易于理解;
在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。
缺点:只能处理离散型属性,并且对倾向于选择取值较多的属性,也容易产生过拟合:“倾向于选择取值较多的特征”是因为“信息增益反映的是给定一个条件以后不确定性减少的程度,这必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大”。

C4.5:C4.5算法核心思想是ID3算法,是ID3算法的改进,其用信息增益率来选择属性,克服了用信息增益来选择属性时变相选择取值多的属性的不足;能在树的构造过程中进行剪枝;
优点:能处理非离散化数据;能处理不完整数据。 产生的分类规则易于理解,准确率较高;并且是对ID3算法有较好的改进,可以处理连续型属性。
缺点:
① 在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;
② 只适合于能够驻留内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。
③ 另外其对可取值数目较少的属性有所偏好。

CART:CART分类与回归树,其实这两种算法就是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。如果目标变量是标称的,称为分类树;如果目标变量是连续的,称为回归树。分类树是使用树结构算法将数据分成离散类的方法。

优点:① 这种算法非常灵活,可以允许有部分错分成本,还可指定先验概率分布,可使用自动的成本复杂性剪枝来得到归纳性更强的树。
② 在面对诸如存在缺失值、变量数多等问题时CART显得非常稳健。

缺点:① 当样本发生一点点的改动,就会导致树结构的剧烈改变。
② 选择的是最优的一个特征来做分类决策而不是一组特征,对准确性有所影响。

3.请简要叙述何为决策树的剪枝, 以及有哪些剪枝方法, 并比较不同剪枝方法的优缺点.
① 决策树的剪枝就是在决策树学习中将已生成的树进行简化的过程,其目的是为了避免过拟合,以降低树的复杂度,提高泛化能力;
②剪枝类型包括预剪枝、后剪枝:
预剪枝:在构造决策树的同时进行剪枝。所有决策树的构建方法,都是在无法进一步降低熵的情况下才会停止创建分支的过程,为了避免过拟合,可以设定一个阈值,熵减小的数量小于这个阈值,即使还可以继续降低熵,也停止继续创建分支。
后剪枝:在决策树生长完成之后,对树进行剪枝,得到简化版的决策树。剪枝的过程是对拥有同样父节点的一组节点进行检查,判断如果将其合并,熵的增加量是否小于某一阈值。如果确实小,则这一组节点可以合并一个节点,其中包含了所有可能的结果。后剪枝是目前最普遍的做法。后剪枝的剪枝过程是删除一些子树,然后用其叶子节点代替,这个叶子节点所标识的类别通过大多数原则确定。所谓大多数原则,是指剪枝过程中, 将一些子树删除而用叶节点代替,这个叶节点所标识的类别用这棵子树中大多数训练样本所属的类别来标识,所标识的类称为大多数类。
对于二者的优缺点比较:后剪枝通常比预剪枝保留更多的分支,其欠拟合风险很小,因此后剪枝的泛化性能往往优于预剪枝决策树。但后剪枝过程是从底往上裁剪,因此其训练时间开销比前剪枝要大。

SVM和提升方法

  1. 针对不同样本,SVM有何种改进?
    (1)当训练样本线性可分时?
    (2)当训练数据近似线性可分时?
    (3)当训练数据线性不可分时?
    答:
    当训练样本线性可分时,利用硬间隔最大化,学习生成一个线性分类器,即线性可分支持向量机;
    当训练数据近似线性可分时,引入松弛变量,利用软间隔最大化,学习生成一个线性分类器,即线性支持向量机;
    当训练数据线性不可分时,通过引入核函数使用核技巧及软间隔最大化,学习非线性支持向量机。

  2. 为何SVM要引入核函数,又有哪些常用核函数,适用于哪些情况?
    答:
    当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。其中核函数的选择是决定支持向量机性能的关键;
    根据Mercer 定理:若一个对称函数所对应的核矩阵半正定 , 则它就能作为核函数来使用。常用的核函数有以下几种:
    线性核函数:〖K(x,z)=x∙z〗^,主要用于线性可分的情况,其特征空间到输入空间的维度是一样的,其参数少速度快,对于线性可分数据,其分类效果很理想;
    多项式核函数:〖K(x,z)=(x∙z+1)〗^p,多项式核函数可以实现将低维的输入空间映射到高纬的特征空间,但是多项式核函数的参数多,当多项式的阶数比较高的时候,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度会大到无法计算;
    高斯(RBF)核函数:K(x,z)=exp⁡(-〖||x-z||〗2/(2σ2 )),高斯径向基核函数是一种局部性强的核函数,其可以将一个样本映射到一个更高维的空间内,该核函数是应用最广的一个,无论大样本还是小样本都有比较好的性能,而且其相对于多项式核函数参数要少,因此大多数情况下在不知道用什么核函数的时候,优先使用高斯核函数;
    字符串核函数:其是定义自爱字符串集合上的核函数,其在文本分类、信息检索、生物信息学等方面应用;
    对于核函数的选择,有以下简单选取方法:
    如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM;
    如果特征的数量小,样本的数量正常,则选用SVM+高斯核函数;
    如果特征的数量小,而样本的数量很大,则需要手工添加一些特征从而变成第一种情况。

  3. 训练过程中,每轮训练一直存在分类错误的问题,整个Adaboost却能快速收敛,为何?
    答:每轮训练结束后,AdaBoost 都会对样本的权重进行调整,调整的结果越到后面被错误分类的样本权重会越高。而后面的分类器为了达到较低的带权分类误差,会把样本权重高的样本分类正确。这样造成的结果是,虽然每个弱分类器可能都有分错的样本,但整个 AdaBoost 却能保证对每个样本进行正确分类,从而实现快速收敛。

  4. 请简述Adaboost 的优缺点.
    答:优点:能够基于泛化性能相当弱的的学习器构建出很强的集成,不容易发生过拟合;

缺点:对异常样本比较敏感,异常样本在迭代过程中会获得较高的权值,影响最终学习器的性能表现。

  1. 请简述AdaBoost 与 GBDT 的区别.
    答:区别在于两者boosting的策略:Adaboost通过不断修改权重、不断加入弱分类器进行boosting;而GBDT通过不断在负梯度方向上加入新的树进行boosting。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章