深度学习常见问题(一)-深度学习引出

常见概念

  1. 深度学习的定义及为什么要用神经网络?
    深度学习是模仿人脑神经元结构的一种多隐层神经网络,属于机器学习的重要分支。神经网络通过组合底层特征形成更加抽象的高层特征,相比传统提取特征的方法,具有更强的学习能力,所以要采用神经网络。
  • 问题 非线性分类问题,可否用多元线性回归进行分类
    可以的,通过引入激活函数,将线性模型转化成非线性问题;或是对数据进行核函数变换,投影到高维空间,从而解决非线性问题
  1. 对于多类分类问题,如何用二类分类问题进行解决?
    用一对其余(One-vs-Rest)的方法:将其中一个类标记为正类,然后将剩余的其它类都标记成负类。

  2. 介绍深度学习领域的“三驾马车” (2019图灵奖得主)的主要贡献。
    Geoffrey Hinton博士 英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。2006年左右,Geoffrey Hilton和他的学生发明了用GPU来优化深度神经网络的工程方法,并在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。他给多层神经网络相关的学习方法赋予了一个新名词——“深度学习”。
    Yoshua Bengio博士 加拿大计算机科学家,最著名的贡献是他在人工神经网络和深度学习方面的工作,特别是在预训练问题,自动编码器降噪等领域做出的重大贡献。
    Yann LeCun博士 最著名的贡献是发明了卷积神经网络(CNN),因此他也被称为卷积网络之父。LeCun在多伦多大学跟随Hinton做博士后,1988年,加入贝尔实验室,LeCun(1989)对权重进行随机初始化后使用了随机梯度下降(Stochastic Gradient Descent, SGD)进行学习,这一策略被其后的深度学习研究广泛采用。

  3. 总结神经网络经历的三起两落(各个发展时期的问题及突破)
    1958年Rosenblatt提出感知机,引起轰动,引发神经网络第一次兴起。
    1969年Minsky指出感知机弱点,指出计算层增加,则计算能力减弱。很多学者放弃神经网络。
    1986年,Hinton提出反向传播算法,神经网络再次兴起。
    1995年支持向量机兴起,神经网络进入第二次寒冬。
    2006年Hinton使得训练多层神经网络效率提升,并在2012年在图像识别取得很好效果。充分证明了多层神经网络的优越性

  4. 介绍一下机器学习中简单线性分类器与深度学习的区别?
    机器学习中线性分类器就是用一个“超平面”将正、负样本隔离开,深度学习设置了很多的中间层,也叫隐藏层,深度学习的模型结构是一种含多隐层的神经网络,会通过组合低层特征形成更加抽象的高层特征。

  5. 列举深度学习的应用领域及各领域的主要
    ① siri为代表的聊天机器人、自动问答系统等,设计语音识别、自然语言处理等方向②自动驾驶,目前百度等大公司都在运用,感知、路径预测方向等等③搜索引擎,如谷歌、百度④计算机视觉机器人,如大狗机器人、阿尔法狗⑤人脸识别技术,例如可以判断公司员工访客

  6. 解释类别标签的groud truth与gold standard (概念,区别及联系)
    “ground truth”一词指的是训练集对监督学习技术的分类的准确性。这在统计模型中被用来证明或否定研究假设。“ground truth”这个术语指的是为这个测试收集适当的目标(可证明的)数据的过程。
    Gold Standard 又被称为0-1 loss, 记录分类错误的次数
    由于使用错误的数据,对模型的估计比实际要糟糕。另外,标记数据还被用来更新权重,错误标记的数据会导致权重更新错误。因此使用高质量的数据是很有必要的。

  7. 有监督学习中数据集的拆分方法有哪些?
    1.留出法
    2.k折交叉验证(考虑分层抽样)

  8. 如何用网格搜索来调超参数?若20种超参数组合,进行10折交叉验证,|会训练多少种不同的模型?
    (1)确定评价指标;
    (2)对于超参数取值的每种组合,在训练集上使用交叉验证的方法求得其K次 评价的性能均值;
    (3) 最后,比较哪种超参数取值组合的性能最好,从而得到最优超参数的取 值组合。
    两种

  9. 分类性能度量方法?
    准确率、召回率、PR曲线、F值、ROC曲线、分类报告

  10. 什么是回归问题?
    回归分析(regression analysis) 是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

  11. 回归性能度量方法有哪些?
    MAE,MSE,logistic

  12. 介绍一下平均绝对误差MAE(mean_absolute_error)
    平均绝对值误差,表示预测值和观测值之间绝对误差的平均值,是真实值与预测值的差值的平方然后求和平均。

  13. 介绍一下均方误差MSE (mean-squared-error)及均方根差RMSE
    均方误差通常用于回归问题的损失函数,为训练样本的标签与模型预测值的L2距离的均值,均方根误差是均方误差开算数平方根得得到值

  14. 介绍一下交叉熵loss
    交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。

  • 信息熵是用来描述信息混乱度的指标,交叉熵是信息熵的期望,相较于均方误差等幂指数型误差,交叉熵的对数性质可以使其在不容易陷入激活函数的饱和区,因此会减少梯度消失的出现。交叉熵广泛应用于各种分类任务

常见面试题

  1. 分类问题的评价标准。
    准确率 = (TP+TN)/总样本数
    精确率 = TP/(TP+FP) = 所有预测为正类样本中正类的概率
    召回率 = TP/(TP+FN) = 所有真正类样本中正类的概率
    2/调和平均值 = 1/精确率+1/召回率
    P-R曲线:纵轴为精确率,横轴为召回率,基于平衡点(P=R)度量各个基分类器的优劣;
    ROC曲线:纵轴为TPR,横轴为FPR
    TPR = TP/(TP+FN) FPR = FP/(FP+TN)
    AUC:ROC曲线下的面积
    mAP = 所有类别的AP之和/类别数量
    P = (一张图片类别C识别正确数量)/(一张图片类别C的总数量)
    AP = 每张图片的P之和/图片数量

  2. 神经网络的优缺点?为什么需要深层神经网络。
    优点:
    (1)具有自学习功能。例如实现图像识别时,只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络,网络就会通过自学习功能,慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测,其应用前途是很远大的。
    (2)具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。
    (3)具有高速寻找优化解的能力。寻找一个复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优化解。
    缺点:
    (1)最严重的问题是没能力来解释自己的推理过程和推理依据。
    (2)不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作。
    (3)把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息。
    (4)理论和学习算法还有待于进一步完善和提高。
    使用深层网络的理由:
    要达到同样的计算结果,深层网络所需的节点数远远小於单层网络

  3. 什么是训练样本类别不平衡问题?如何解决这类问题?
    类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。
    解决不平衡分类问题的策略可以分为两大类。一类是从训练集入手 , 通过改变训练集样本分布降低不平衡程度;
    另一类是从学习算法入手 , 根据算法在解决不平衡问题时的缺陷,适当地修改算法使之适应不平衡分类问题

  4. 列举至少三种损失函数,写出数学表达式并简述各自优点。
    Zero-one Loss即0-1损失,它是一种较为简单的损失函数,如果预测值与目标值不相等,那么为1,否则为0。
    Hinge损失可以用来解决间隔最大化问题,如在SVM中解决几何间隔最大化问题。
    Log Loss在使用似然函数最大化时,其形式是进行连乘,但是为了便于处理,一般会套上log,这样便可以将连乘转化为求和,由于log函数是单调递增函数,因此不会改变优化结果。因此log类型的损失函数也是一种常见的损失函数。

  5. 对于一个二分类问题,超过阈值t的判定为正例,否则判定为负例。现在若将t增大,则准确率和召回率会如何变化?
    若增大阈值t,更多不确定(分类概率较小)的样本将会被分为负例,剩余确定(分类概率较大)的样本所占比例将会增大(或不变),即正确率会增大(或不变);若增大阈值t,则可能将部分不确定(分类概率较小)的正例样品误分类为负例,即召回率会减小(或不变)。

  6. 对于多分类问题,为什么神经网络一般使用交叉熵而不用欧氏距离损失?
    交叉熵在一般情况下更容易收敛到一个更好的解。

  7. 尝试使用一个三层感知机解决异或问题。
    在这里插入图片描述
    在这里插入图片描述
    通过组合与门、与非门、或门实现异或门
    这里,把s1 作为 与非门 的输出,把s 2 作为或门的输出,填入真值表中。

X1 X2 S1 S2 y
0 0 1 0 0
1 0 1 1 1
0 1 1 1 1
1 1 0 1 0
  1. 比较ROC 曲线与 P-R 曲线各自有什么特点?
    P-R曲线的特性:
    (1)根据逐个样本作为阈值划分点的方法,可以推敲出recall值是递增的(但并非严格递增),随着划分点左移,正例被判别为正例的越来越多,不会减少。而精确率precision并非递减,二是有可能振荡的,虽然正例被判为正例的变多,但负例被判为正例的也变多了,因此precision会振荡,但整体趋势是下降。
    (2)P-R曲线肯定会经过(0,0)点
    比如讲所有的样本全部判为负例,则TP=0,那么P=R=0,因此会经过(0,0)点,但随着阈值点左移,precision初始很接近1,recall很接近0,因此有可能从(0,0)上升的线和座标重合,不易区分。
    (3)曲线最终不会到(1,0)点
    很多P-R曲线的终点看着都是(1,0)点,这可能是因为负例远远多于正例。
    (4)较合理的P-R曲线应该是(曲线一开始被从(0,0)拉升到(0,1),并且前面的都预测对了,全是正例,因此precision一直是1。
    ROC曲线的优点:
    (1) 兼顾正例和负例的权衡。因为TPR聚焦于正例,FPR聚焦于与负例,使其成为一个比较均衡的评估方法。
    (2) ROC曲线选用的两个指标TPR FPR都不依赖于具体的类别分布。
    (3) 具有鲁棒性,在类别分布发生明显改变的情况下依然能客观地识别出较好的分类器。
    ROC曲线的缺点:
    (1)在类别不平衡的背景下,负例的数目众多致使FPR的增长不明显,导致ROC曲线呈现一个过分乐观的效果估计。
  2. 什么是超参数,如何选择超参数,深度学习网络中有哪些超参数?
    指在学习过程之前需要设置其值的一些变量,而不是通过训练得到的参数数据。
    手动调整超参数、自动超参数优化算法、网格搜索、随机搜索、基于模型的超参数优化
    神经网路中的超参数主要包括1. 学习率,2. 正则化参数,3. 神经网络的层数,4. 每一个隐层中神经元的个数,5. 学习的回合数Epoch,6. 小批量数据 minibatch的大小,7. 输出神经元的编码方式,8. 代价函数的选择,9. 权重初始化的方法,10. 神经元激活函数的种类,11.参加训练模型数据的规模
  3. 深度学习模型有哪些局限性?什么样的数据集不适合深度模型?
    1.深度学习需要大量的训练数据、2、无法判断数据的正确性、3、深度网络对图像的改变过于敏感、4、深度学习不能解释因果关系
    1.数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。
    2.数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集,不适于使用深度学习算法进行处理。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章