1.2.4 訓練數據與測試數據機器學習:從數據中學習知識、模式、規律。
機器學習的目標:
此時映射函數是將數據從像素點空間映射到我們人類的語義空間上。
如果原始數據是文本數據,則映射函數則是將文檔中的單詞序列映射成‘喜悅、憤怒’等表達情感的詞彙,完成情感分類。
從圖像中或者從文本中學習得到映射函數都實現了把數據從原始的數據空間映射到我們所定義的高級語義空間的這一個任務。
這也體現了機器學習中映射函數的重要性。
機器學習的分類:
1、 監督學習(supervised learning) :數據有標籤、一般爲迴歸或分類等任務。
2、無監督學習(un-supervised learning) :數據無標籤、一般爲聚類或若干降維任務。
3、半監督學習 (semi-supervised learning):一部分數據有標籤,一部分數據沒有標籤。
4、強化學習(reinforcement learning): 序列數據決策學習,一般爲與從環境交互中學習。
1.1監督學習中的分類問題
這類問題就是從標籤數據中學習得到映射函數f(數學好 = Yes,會編程 = Yes, 身體好 =?,嗓門大 =?), 然後通過給定的參數信息,我們就可以判斷這個人是否是程序員。
1.2 監督學習的重要元素
- 標註數據:標識了類別信息的數據
- 學習模型 :如何學習得到映射模型
- 損失函數 :如何對學習結果進行度量
1.2.1 標註數據詳解,以及標記數據過程介紹:標記數據
1.2.2 學習模型 http://www.sohu.com/a/145845622_642762
1.2.3 損失函數
- 訓練集中一共有?個標註數據,第?個標註數據記爲 (?? , ??) ,其中第?個樣本數據爲??,??是??的標註信息。
- 從訓練數據中學習得到的映射函數記爲?, ?對??的預 測結果記爲?(??) 。
- 損失函數就是用來計算??真實值?? 與預測值?(??)之間差值的函數。很顯然,在訓練過程中希望映射函數在訓練數據集上 得到 “損失”之和最小,即
1.2.4 訓練數據與測試數據
經驗風險(empirical risk ): 訓練集中數據產生的損失。經驗風險越小說明學習模型對訓練數據擬合程度越好,但它僅反映了局部數據。
期望風險(expected risk): 當測試集中存在無窮多數據時產生的損失。期望風險越小,學習所得模型越好,但它無法得到全量數據。
- 期望風險是模型關於聯合分佈期望損失,經驗風險是模型關於 訓練樣本集平均損失。
- 根據大數定律,當樣本容量趨於無窮時,經驗風險趨於期望風 險。所以在實踐中很自然用經驗風險來估計期望風險。
- 由於現實中訓練樣本數目有限,用經驗風險估計期望風險並不 理想,要對經驗風險進行一定的約束。
結構風險最小化(structural risk minimization): 爲了防止過擬合,在經驗風險上加上表示模型複雜度的正則化項(regulatizer)或懲罰項(penalty term ) :
1.2.5監督學習方法
1、生成方法(generative approach)
所學到的模型分別稱爲生成模型 (generative model) , 生成模型從數據中學習聯合概率分佈?(?, ?)(通 過似然概率?(?|?) 和類概率?(?) 的乘積來求取)
典型方法爲貝葉斯方法、隱馬爾可夫鏈 , 聯合分佈概率?(?, ?)或似然概率?(?|?)求取很困難。
2、判別方法(discriminative approach) 。
判別方法直接學習判別函數?(?) 或者條件概率 分佈?(?|?) 作爲預測的模型,即 判 別 模 型 (discriminative model).。 判別模型關心在給定輸入數據下,預測該數據的輸出是什麼。 典型判別模型包括迴歸模型、神經網絡、支持向量機和Ada boosting等。