介紹統計學習方法基本概念;三要素:模型、策略和算法;生成模型和判別模型;正則化、交叉驗證與學習的泛化能力等基礎實知識。
統計學習三要素
方法 = 模型 + 策略 + 算法
模型
在監督學習中,模型就是所要學習的條件概率分佈或決策函數。模型的假設空間包含所有可能的條件概率分佈或決策函數。
策略
按照什麼樣的準則學習,以及從假設空間中選擇最優的模型。
各類損失函數和風險函數:
(1)0-1損失函數(0-1 loss function)
(2)平方損失函數(quadretic loss function)
(3)絕對損失函數(absolute loss function)
(4) 對數損失函數(logarithmic loss function)
損失函數值越小,模型越好,學習的目標就是選擇期望風險最小的模型。損失函數的期望是:
算法
算法是學習模型的具體計算方法。統計學習的問題一般爲最優化問題,所以這裏的算法主要指一些最優化算法,比如梯度下降法、牛頓迭代法、拉格朗日乘數法等。
模型評估與正則化
訓練誤差反應的是給定的問題是不是一個容易學習的問題,測試誤差反映了學習倉發對未知的測試數據的預測能力。
模型評估中還要考慮過擬合的問題,模型過度擬合於訓練數據,導致在測試集上表現不好,而且模型也會很複雜。
正則化就是解決解決過擬合問題的模型選擇的典型方法。在經驗風險上加一個正則化項,其一般是模型複雜度的單點遞增函數,模型越複雜,正則化值就越大。正則化可以是L1範數,也可以是L2範數。
平方損失函數增加L2正則化:
平方損失函數增加L1正則化:
生成模型與判別模型
監督學習的任務就是學習一個模型,應用這個模型,對新的輸入預測相應的輸出,模型的形式一般是決策函數:Y = f(X),或者條件概率分佈:P(Y|X)。
監督學習方法分兩類:生成方法(generative approach)和判別方法(discriminative approach)。
生成模型
生成模型一般根據聯合概率分佈P(X, Y),求出條件概率分佈P(Y|X) 作爲預測的模型,即生成模型:
典型生成模型:樸素貝葉斯法、隱馬爾可夫模型。
判別模型
判別模型是直接學習出決策函數或條件概率分佈P(Y|X),以此作爲預測的模型。
典型判別模型:k進鄰法、感知器、決策樹、邏輯迴歸模型、最大熵模型、支持向量機、提升方法和條件隨機場
監督學習主要是三類問題:分類問題,標註問題,迴歸問題。