算法常見概念筆記

1.歸一化,標準化
  • 歸一化:把數據投影到(0,1)或者(-1,1)之間的小數。
  • 標準化:數據變成平均值爲0,標準差爲1的數。
  • 中心化:均值爲0
    區別:歸一化是將樣本的特徵值轉換到同一量綱下把數據映射到[0,1]或者[-1, 1]區間內,變量的極值決定。標準化通過求z-score的方法,轉換爲標準正態分佈。
    歸一化計算有多種方式,例如:
    x1 = (x - x_min)/(x_max - x_min)

標準化:xa = (x - μ) / σ 分數減去平均數然後除以標準差
使用場景:

  • 輸出有要求,則歸一化
  • 處理數據噪音數據,優先標準化
2.方差、標準差
  • 方差 s^ 2 = [(x1-x) ^ 2 +…(xn-x)^2]/n
  • 標準差 s=sqrt(s^2)
3.交叉驗證

將訓練數據分成幾個部分,例如數據集A:[1,2,3,4,5,6]
爲了減少過擬合現象,可以將數據分組進行訓練,驗證。例如對A
分爲

ford1 : 1 2
ford2 : 3 4
ford3 : 5 6

進行交叉驗證過程:

train: ford1 + ford2  test: ford3
train: ford2 + ford3  test: ford1
train: ford1 + ford3  test: ford2

在sklearn中可以使用KFold

4.懲罰項 L1 L2正則化

例如線性擬合主要是求出w向量 使得wx儘可能接近樣本。但考慮一種情況 求出了兩個向量都能滿足條件:wa 參數波動較大,wb參數波動小,更穩定。
那這個時候時候我們可以使用正則化,給損失函數增加懲罰項:

loss  = loss + s*w^2

s是懲罰項係數,上式是L2懲罰項 L1就是加上絕對值 |w|

5.準確率 精確率 召回率(Recall)

常見的例子:

假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.
現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作爲評估者的你需要來評估(evaluation)下他的工作

相關 正類 無關 負類
被檢索到 TP 正類判定爲正類 FP 負類判定爲正類
未被檢索到 FN 正類判定爲負類 TN 負類判定爲負類

現在需要找到所有的女生:
TP=20
FP=30
FN=0
TN=50

  • 準確率 對於給定的測試數據集,分類器正確分類的樣本數與總樣本數之比
    (TP + TN) / 總樣本 即分類器正確分類
  • 精確率 TP / (TP + FP) 當前結果
  • 召回率 TP / (TP + FN) 樣本中的正例有多少被預測正確,又稱爲查全率
6.樣本不均衡

對於正負樣本不均衡,需將樣本均衡處理。一般分爲下采樣(去除多的數據),上採樣填充。
下采樣數據量少,準確率低。
上採樣使用SMOTE算法

x_new = x + rand(0, 1) * (x_di - x)
x_di : x距離樣本集其他點的距離

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章