深度學習常見問題(一)-深度學習引出

常見概念

  1. 深度學習的定義及爲什麼要用神經網絡?
    深度學習是模仿人腦神經元結構的一種多隱層神經網絡,屬於機器學習的重要分支。神經網絡通過組合底層特徵形成更加抽象的高層特徵,相比傳統提取特徵的方法,具有更強的學習能力,所以要採用神經網絡。
  • 問題 非線性分類問題,可否用多元線性迴歸進行分類
    可以的,通過引入激活函數,將線性模型轉化成非線性問題;或是對數據進行核函數變換,投影到高維空間,從而解決非線性問題
  1. 對於多類分類問題,如何用二類分類問題進行解決?
    用一對其餘(One-vs-Rest)的方法:將其中一個類標記爲正類,然後將剩餘的其它類都標記成負類。

  2. 介紹深度學習領域的“三駕馬車” (2019圖靈獎得主)的主要貢獻。
    Geoffrey Hinton博士 英國出生的計算機學家和心理學家,以其在神經網絡方面的貢獻聞名。2006年左右,Geoffrey Hilton和他的學生髮明瞭用GPU來優化深度神經網絡的工程方法,並在《Science》和相關期刊上發表了論文,首次提出了“深度信念網絡”的概念。他給多層神經網絡相關的學習方法賦予了一個新名詞——“深度學習”。
    Yoshua Bengio博士 加拿大計算機科學家,最著名的貢獻是他在人工神經網絡和深度學習方面的工作,特別是在預訓練問題,自動編碼器降噪等領域做出的重大貢獻。
    Yann LeCun博士 最著名的貢獻是發明了卷積神經網絡(CNN),因此他也被稱爲卷積網絡之父。LeCun在多倫多大學跟隨Hinton做博士後,1988年,加入貝爾實驗室,LeCun(1989)對權重進行隨機初始化後使用了隨機梯度下降(Stochastic Gradient Descent, SGD)進行學習,這一策略被其後的深度學習研究廣泛採用。

  3. 總結神經網絡經歷的三起兩落(各個發展時期的問題及突破)
    1958年Rosenblatt提出感知機,引起轟動,引發神經網絡第一次興起。
    1969年Minsky指出感知機弱點,指出計算層增加,則計算能力減弱。很多學者放棄神經網絡。
    1986年,Hinton提出反向傳播算法,神經網絡再次興起。
    1995年支持向量機興起,神經網絡進入第二次寒冬。
    2006年Hinton使得訓練多層神經網絡效率提升,並在2012年在圖像識別取得很好效果。充分證明了多層神經網絡的優越性

  4. 介紹一下機器學習中簡單線性分類器與深度學習的區別?
    機器學習中線性分類器就是用一個“超平面”將正、負樣本隔離開,深度學習設置了很多的中間層,也叫隱藏層,深度學習的模型結構是一種含多隱層的神經網絡,會通過組合低層特徵形成更加抽象的高層特徵。

  5. 列舉深度學習的應用領域及各領域的主要
    ① siri爲代表的聊天機器人、自動問答系統等,設計語音識別、自然語言處理等方向②自動駕駛,目前百度等大公司都在運用,感知、路徑預測方向等等③搜索引擎,如谷歌、百度④計算機視覺機器人,如大狗機器人、阿爾法狗⑤人臉識別技術,例如可以判斷公司員工訪客

  6. 解釋類別標籤的groud truth與gold standard (概念,區別及聯繫)
    “ground truth”一詞指的是訓練集對監督學習技術的分類的準確性。這在統計模型中被用來證明或否定研究假設。“ground truth”這個術語指的是爲這個測試收集適當的目標(可證明的)數據的過程。
    Gold Standard 又被稱爲0-1 loss, 記錄分類錯誤的次數
    由於使用錯誤的數據,對模型的估計比實際要糟糕。另外,標記數據還被用來更新權重,錯誤標記的數據會導致權重更新錯誤。因此使用高質量的數據是很有必要的。

  7. 有監督學習中數據集的拆分方法有哪些?
    1.留出法
    2.k折交叉驗證(考慮分層抽樣)

  8. 如何用網格搜索來調超參數?若20種超參數組合,進行10折交叉驗證,|會訓練多少種不同的模型?
    (1)確定評價指標;
    (2)對於超參數取值的每種組合,在訓練集上使用交叉驗證的方法求得其K次 評價的性能均值;
    (3) 最後,比較哪種超參數取值組合的性能最好,從而得到最優超參數的取 值組合。
    兩種

  9. 分類性能度量方法?
    準確率、召回率、PR曲線、F值、ROC曲線、分類報告

  10. 什麼是迴歸問題?
    迴歸分析(regression analysis) 是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。

  11. 迴歸性能度量方法有哪些?
    MAE,MSE,logistic

  12. 介紹一下平均絕對誤差MAE(mean_absolute_error)
    平均絕對值誤差,表示預測值和觀測值之間絕對誤差的平均值,是真實值與預測值的差值的平方然後求和平均。

  13. 介紹一下均方誤差MSE (mean-squared-error)及均方根差RMSE
    均方誤差通常用於迴歸問題的損失函數,爲訓練樣本的標籤與模型預測值的L2距離的均值,均方根誤差是均方誤差開算數平方根得得到值

  14. 介紹一下交叉熵loss
    交叉熵(Cross Entropy)是Shannon信息論中一個重要概念,主要用於度量兩個概率分佈間的差異性信息。語言模型的性能通常用交叉熵和複雜度(perplexity)來衡量。交叉熵的意義是用該模型對文本識別的難度,或者從壓縮的角度來看,每個詞平均要用幾個位來編碼。複雜度的意義是用該模型表示這一文本平均的分支數,其倒數可視爲每個詞的平均概率。平滑是指對沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。

  • 信息熵是用來描述信息混亂度的指標,交叉熵是信息熵的期望,相較於均方誤差等冪指數型誤差,交叉熵的對數性質可以使其在不容易陷入激活函數的飽和區,因此會減少梯度消失的出現。交叉熵廣泛應用於各種分類任務

常見面試題

  1. 分類問題的評價標準。
    準確率 = (TP+TN)/總樣本數
    精確率 = TP/(TP+FP) = 所有預測爲正類樣本中正類的概率
    召回率 = TP/(TP+FN) = 所有真正類樣本中正類的概率
    2/調和平均值 = 1/精確率+1/召回率
    P-R曲線:縱軸爲精確率,橫軸爲召回率,基於平衡點(P=R)度量各個基分類器的優劣;
    ROC曲線:縱軸爲TPR,橫軸爲FPR
    TPR = TP/(TP+FN) FPR = FP/(FP+TN)
    AUC:ROC曲線下的面積
    mAP = 所有類別的AP之和/類別數量
    P = (一張圖片類別C識別正確數量)/(一張圖片類別C的總數量)
    AP = 每張圖片的P之和/圖片數量

  2. 神經網絡的優缺點?爲什麼需要深層神經網絡。
    優點:
    (1)具有自學習功能。例如實現圖像識別時,只在先把許多不同的圖像樣板和對應的應識別的結果輸入人工神經網絡,網絡就會通過自學習功能,慢慢學會識別類似的圖像。自學習功能對於預測有特別重要的意義。預期未來的人工神經網絡計算機將爲人類提供經濟預測、市場預測、效益預測,其應用前途是很遠大的。
    (2)具有聯想存儲功能。用人工神經網絡的反饋網絡就可以實現這種聯想。
    (3)具有高速尋找優化解的能力。尋找一個複雜問題的優化解,往往需要很大的計算量,利用一個針對某問題而設計的反饋型人工神經網絡,發揮計算機的高速運算能力,可能很快找到優化解。
    缺點:
    (1)最嚴重的問題是沒能力來解釋自己的推理過程和推理依據。
    (2)不能向用戶提出必要的詢問,而且當數據不充分的時候,神經網絡就無法進行工作。
    (3)把一切問題的特徵都變爲數字,把一切推理都變爲數值計算,其結果勢必是丟失信息。
    (4)理論和學習算法還有待於進一步完善和提高。
    使用深層網絡的理由:
    要達到同樣的計算結果,深層網絡所需的節點數遠遠小於單層網絡

  3. 什麼是訓練樣本類別不平衡問題?如何解決這類問題?
    類別不平衡就是指分類任務中不同類別的訓練樣例數目差別很大的情況。
    解決不平衡分類問題的策略可以分爲兩大類。一類是從訓練集入手 , 通過改變訓練集樣本分佈降低不平衡程度;
    另一類是從學習算法入手 , 根據算法在解決不平衡問題時的缺陷,適當地修改算法使之適應不平衡分類問題

  4. 列舉至少三種損失函數,寫出數學表達式並簡述各自優點。
    Zero-one Loss即0-1損失,它是一種較爲簡單的損失函數,如果預測值與目標值不相等,那麼爲1,否則爲0。
    Hinge損失可以用來解決間隔最大化問題,如在SVM中解決幾何間隔最大化問題。
    Log Loss在使用似然函數最大化時,其形式是進行連乘,但是爲了便於處理,一般會套上log,這樣便可以將連乘轉化爲求和,由於log函數是單調遞增函數,因此不會改變優化結果。因此log類型的損失函數也是一種常見的損失函數。

  5. 對於一個二分類問題,超過閾值t的判定爲正例,否則判定爲負例。現在若將t增大,則準確率和召回率會如何變化?
    若增大閾值t,更多不確定(分類概率較小)的樣本將會被分爲負例,剩餘確定(分類概率較大)的樣本所佔比例將會增大(或不變),即正確率會增大(或不變);若增大閾值t,則可能將部分不確定(分類概率較小)的正例樣品誤分類爲負例,即召回率會減小(或不變)。

  6. 對於多分類問題,爲什麼神經網絡一般使用交叉熵而不用歐氏距離損失?
    交叉熵在一般情況下更容易收斂到一個更好的解。

  7. 嘗試使用一個三層感知機解決異或問題。
    在這裏插入圖片描述
    在這裏插入圖片描述
    通過組合與門、與非門、或門實現異或門
    這裏,把s1 作爲 與非門 的輸出,把s 2 作爲或門的輸出,填入真值表中。

X1 X2 S1 S2 y
0 0 1 0 0
1 0 1 1 1
0 1 1 1 1
1 1 0 1 0
  1. 比較ROC 曲線與 P-R 曲線各自有什麼特點?
    P-R曲線的特性:
    (1)根據逐個樣本作爲閾值劃分點的方法,可以推敲出recall值是遞增的(但並非嚴格遞增),隨着劃分點左移,正例被判別爲正例的越來越多,不會減少。而精確率precision並非遞減,二是有可能振盪的,雖然正例被判爲正例的變多,但負例被判爲正例的也變多了,因此precision會振盪,但整體趨勢是下降。
    (2)P-R曲線肯定會經過(0,0)點
    比如講所有的樣本全部判爲負例,則TP=0,那麼P=R=0,因此會經過(0,0)點,但隨着閾值點左移,precision初始很接近1,recall很接近0,因此有可能從(0,0)上升的線和座標重合,不易區分。
    (3)曲線最終不會到(1,0)點
    很多P-R曲線的終點看着都是(1,0)點,這可能是因爲負例遠遠多於正例。
    (4)較合理的P-R曲線應該是(曲線一開始被從(0,0)拉昇到(0,1),並且前面的都預測對了,全是正例,因此precision一直是1。
    ROC曲線的優點:
    (1) 兼顧正例和負例的權衡。因爲TPR聚焦於正例,FPR聚焦於與負例,使其成爲一個比較均衡的評估方法。
    (2) ROC曲線選用的兩個指標TPR FPR都不依賴於具體的類別分佈。
    (3) 具有魯棒性,在類別分佈發生明顯改變的情況下依然能客觀地識別出較好的分類器。
    ROC曲線的缺點:
    (1)在類別不平衡的背景下,負例的數目衆多致使FPR的增長不明顯,導致ROC曲線呈現一個過分樂觀的效果估計。
  2. 什麼是超參數,如何選擇超參數,深度學習網絡中有哪些超參數?
    指在學習過程之前需要設置其值的一些變量,而不是通過訓練得到的參數數據。
    手動調整超參數、自動超參數優化算法、網格搜索、隨機搜索、基於模型的超參數優化
    神經網路中的超參數主要包括1. 學習率,2. 正則化參數,3. 神經網絡的層數,4. 每一個隱層中神經元的個數,5. 學習的回合數Epoch,6. 小批量數據 minibatch的大小,7. 輸出神經元的編碼方式,8. 代價函數的選擇,9. 權重初始化的方法,10. 神經元激活函數的種類,11.參加訓練模型數據的規模
  3. 深度學習模型有哪些侷限性?什麼樣的數據集不適合深度模型?
    1.深度學習需要大量的訓練數據、2、無法判斷數據的正確性、3、深度網絡對圖像的改變過於敏感、4、深度學習不能解釋因果關係
    1.數據集太小,數據樣本不足時,深度學習相對其它機器學習算法,沒有明顯優勢。
    2.數據集沒有局部相關特性,目前深度學習表現比較好的領域主要是圖像/語音/自然語言處理等領域,這些領域的一個共性是局部相關性。圖像中像素組成物體,語音信號中音位組合成單詞,文本數據中單詞組合成句子,這些特徵元素的組合一旦被打亂,表示的含義同時也被改變。對於沒有這樣的局部相關性的數據集,不適於使用深度學習算法進行處理。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章