DeepLearning課堂筆記(一)——引論概述

什麼是深度學習

深度學習(Deep learning )是一種實現機器學習的技術, 是機器學習重要的分支。其源於人工神經網絡的研究。深度學習的模型結構是一種含多隱層的神經網絡。通過組合低層特徵形成更加抽象的高層特徵。
在這裏插入圖片描述

數據集及其拆分

有監督學習中數據通常分成訓練集、測試集兩部分。
 訓練集(training set)用來訓練模型,即被用來學習得到系統的參數取值。
 測試集(testing set) 用於最終報告模型的評價結果,因此在訓練階段測試集中的樣本應該是unseen 的。

訓練集測試集拆分—留出法

 留出法(Hold‐Out Method )數據拆分步驟:

  1. 將數據隨機分爲兩組,一組做爲訓練集,一組做爲測試集
  2. 利用訓練集訓練分類器,然後利用測試集評估模型,記錄最後的分類準確率爲此分類器的性能指標
    在這裏插入圖片描述

K 折交叉驗證

在這裏插入圖片描述

  1. 數據集被分成K份(K通常取5或者10)
  2. 不重複地每次取其中一份做測試集,用其他K‐1份做訓練集訓練,樣會得到K個評價模型
  3. 將上述步驟2中的K次評價的性能均值作爲最後評價結果

分層抽樣策略(Stratified k‐fold)

將數據集劃分成k份,特點在於,劃分的k份中,每一份內各個類別數據的比例和原始數據集中各個類別的比例相同。

什麼是超參數?

指在學習過程之前需要設置其值的一些變量,而不是通過訓練得到的參數數據。如深度學習中的學習速率等就是超參數。

什麼是網格搜索?

假設模型中有2個超參數:A 和B。如果使用網格搜索,就是嘗試各種可能的(A, B)對值,找到能使的模型取、得最高性能的(A, B)值對。

網格搜索與K折交叉驗證結合調整超參數的具體步驟:
  1. 確定評價指標;
  2. 對於超參數取值的每種組合,在訓練集上使用交叉驗證的方法求得其K次評價的性能均值;
  3. 最後,比較哪種超參數取值組合的性能最好,從而得到最優超參數的取值組合。

分類及其性能度量

分類問題是有監督學習的一個核心問題。分類解決的是要預測樣本屬於哪個或者哪些預定義的類別。此時輸出變量通常取有限個離散值。
分類的機器學習的兩大階段:1)從訓練數據中學習得到一個分類決策函數或分類模型,稱爲分類器(classifier);2)利用學習得到的分類器對新的輸入樣本進行類別預測。
兩類分類問題與多類分類問題。多類分類問題也可以轉化爲兩類分類問題解決,如採用一對其餘(One-vs-Rest)的方法:將其中一個類標記爲正類,然後將剩餘的其它類都標記成負類。

假設只有兩類樣本,即正例(positive) 和負例(negative)。通常以關注
的類爲正類,其他類爲負類。
在這裏插入圖片描述
表中AB模式:第二個符號表示預測的類別,第一個表示預測結果對了(True) 還是錯了(False)

分類準確率(accuracy ):分類器正確分類的樣本數與總樣本數之比:
在這裏插入圖片描述
精確率(precision) 和召回率(recall) :是二類分類問題常用的評價指標。
精確率反映了模型判定的正例中真正正例的比重。在垃圾短信分類器中,是指預測出的垃圾短信中真正垃圾短信的比例。
召回率反映了總正例中被模型正確判定正例的比重。醫學領域也叫做靈敏度(sensitivity)。在垃圾短信分類器中,指所有真的垃圾短信被分類器正確找出來的比例。
在這裏插入圖片描述
Area的定義(p-r曲線下的面積)Area的定義(p-r曲線下的面積)

如何繪製P‐R曲線

要得到P‐R曲線,需要一系列Precision 和Recall的值。這些系列值是通過閾值來形成的。對於每個測試樣本,分類器一般都會給了“Score”值,表示該樣本多大概率上屬於正例。

步驟:

  1. 從高到低將“Score” 值排序並依此作爲閾值threshold ;
  2. 對於每個閾值,“Score” 值大於或等於這個threshold 的測試樣本被認爲正例,其它爲負例。從而形成一組預測數據。

F值 是精確率和召回率的調和平均:
在這裏插入圖片描述

beta 一般大於0。當beta =1時,退化爲F1 :

在這裏插入圖片描述

分類性能度量‐‐ROC

在這裏插入圖片描述
要得到一個曲線,需要一系列fp rate和tp rate的值。這些系列值是通過閾值來形成的。對於每個測試樣本,分類器一般都會給了
“Score” 值,表示該樣本多大概率上屬於正例(或負例)。
步驟:

  1. 從高到低將“Score” 值排序並依此作爲閾值threshold ;
  2. 對於每個閾值,“Score” 值大於或等於這個threshold 的測試樣本被認爲正例,其它爲負例。從而形成一組預測數據。

分類性能度量—ROC‐AUC計算

在這裏插入圖片描述

迴歸問題

迴歸分析(regression analysis) 是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。
和分類問題不同,迴歸通常輸出爲一個實數數值。而分類的輸
出通常爲若干指定的類別標籤。
常用的評價迴歸問題的方法:
 平均絕對誤差MAE(mean_absolute_error)
 均方誤差MSE (mean_squared_error)及均方根差RMSE
 Log loss,或稱交叉熵loss(cross‐entropy loss)
 R方值,確定係數(r2_score)

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

一致性評價

一致性評價,是指對兩個或多個相關的變量進行分析,從而衡量其相關性的密切程度。
一致性評價‐‐ 皮爾森相關係數法
皮爾森相關係數(Pearson coefficient)的應用背景:
 用來衡量兩個用戶之間興趣的一致性
 用來衡量預測值與真實值之間的相關性
 既適用於離散的、也適用於連續變量的相關分析
X和Y之間的皮爾森相關係數計算公式:
在這裏插入圖片描述
在這裏插入圖片描述
Cohen‘s kappa相關係數也可用於衡量兩個評價者之間的一致性。其特
點在於:
與pearson相關係數的區別:Cohen‘skappa 相關係數通常用於離散的分類的一致性評價。
其通常被認爲比兩人之間的簡單一致百分比更強壯,因爲Cohen‘skappa 考慮到了二人之間的隨機一致的可能性。
在這裏插入圖片描述

未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章