第一章 統計學習方法概論

● 基礎知識
統計學習目的在於對數據進行預測與分析。
輸入空間、特徵空間、輸出空間
以文本爲例,所有文本的詞組成的空間爲輸入空間,這裏包含了已知的文本與未知的文本,或者說,所有詞語的集合是輸入空間,訓練樣本詞語組成的空間爲特徵空間,樣本所屬類別爲輸出空間。
假設空間相當於模型存在的空間。
統計學習三要素:模型、策略、算法
模型可以理解爲決策函數。
策略在於選擇最優模型。
用損失函數或代價函數度量預測的錯誤程度。損失函數度量單個樣本差異!
訓練集的平均損失稱爲經驗風險(平均損失)。
經驗風險最小化提升模型準確率;結構風險最小化防止過擬合(加入了懲罰項,如果一個模型越複雜,過擬合可能性越高,懲罰項越大)
算法則是模型具體使用的方法
監督學習方法分爲生成方法和判別方法。(具體問題以後再說)
二分類問題的評價指標:準確率、召回率、F1值。
● 模型選擇
正則化是結構風險最小化策略的實現
交叉驗證法用來選擇模型(訓練集訓練,驗證集選擇,測試集評估學習方法)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章