算法常見概念筆記

原創

阿唐明

2020-05-31 07:27

1.歸一化，標準化

歸一化：把數據投影到（0，1）或者（-1，1）之間的小數。
標準化：數據變成平均值爲0，標準差爲1的數。
中心化：均值爲0
區別：歸一化是將樣本的特徵值轉換到同一量綱下把數據映射到[0,1]或者[-1, 1]區間內，變量的極值決定。標準化通過求z-score的方法，轉換爲標準正態分佈。
歸一化計算有多種方式，例如：
x1 = (x - x_min)/(x_max - x_min)

標準化：xa = (x - μ) / σ 分數減去平均數然後除以標準差
使用場景：

輸出有要求，則歸一化
處理數據噪音數據，優先標準化

2.方差、標準差

方差 s^ 2 = [(x1-x) ^ 2 +…(xn-x)^2]/n
標準差 s=sqrt(s^2)

3.交叉驗證

將訓練數據分成幾個部分，例如數據集A:[1,2,3,4,5,6]
爲了減少過擬合現象，可以將數據分組進行訓練，驗證。例如對A
分爲

ford1 : 1 2
ford2 : 3 4
ford3 : 5 6

進行交叉驗證過程：

train: ford1 + ford2  test: ford3
train: ford2 + ford3  test: ford1
train: ford1 + ford3  test: ford2

在sklearn中可以使用KFold

4.懲罰項 L1 L2正則化

例如線性擬合主要是求出w向量使得wx儘可能接近樣本。但考慮一種情況求出了兩個向量都能滿足條件：wa 參數波動較大，wb參數波動小，更穩定。
那這個時候時候我們可以使用正則化，給損失函數增加懲罰項：

loss  = loss + s*w^2

s是懲罰項係數，上式是L2懲罰項 L1就是加上絕對值 |w|

5.準確率精確率召回率（Recall）

常見的例子：

假如某個班級有男生80人,女生20人,共計100人.目標是找出所有女生.
現在某人挑選出50個人,其中20人是女生,另外還錯誤的把30個男生也當作女生挑選出來了.
作爲評估者的你需要來評估(evaluation)下他的工作

	相關正類	無關負類
被檢索到	TP 正類判定爲正類	FP 負類判定爲正類
未被檢索到	FN 正類判定爲負類	TN 負類判定爲負類

現在需要找到所有的女生：
TP=20
FP=30
FN=0
TN=50

準確率對於給定的測試數據集，分類器正確分類的樣本數與總樣本數之比
(TP + TN) / 總樣本即分類器正確分類
精確率 TP / (TP + FP) 當前結果
召回率 TP / (TP + FN) 樣本中的正例有多少被預測正確，又稱爲查全率

6.樣本不均衡

對於正負樣本不均衡，需將樣本均衡處理。一般分爲下采樣（去除多的數據），上採樣填充。
下采樣數據量少，準確率低。
上採樣使用SMOTE算法

x_new = x + rand(0, 1) * (x_di - x)
x_di : x距離樣本集其他點的距離

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

算法常見概念筆記

1.歸一化，標準化

2.方差、標準差

3.交叉驗證

4.懲罰項 L1 L2正則化

5.準確率精確率召回率（Recall）

6.樣本不均衡

DAPPER 事務 TRANSACTION

自然語言幾個重要的模型

模型實踐（二）bert 中文語料分類

小白來看：java反射與註解

關鍵詞提取-TFIDF 自定義逆文檔IDF的值

模型實踐（一）RNN LSTM 中文分類

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

算法常見概念筆記

1.歸一化，標準化

2.方差、標準差

3.交叉驗證

4.懲罰項 L1 L2正則化

5.準確率 精確率 召回率（Recall）

6.樣本不均衡

5.準確率精確率召回率（Recall）