人工智能-統計機器學習-機器學習基本概念

1.2.4 訓練數據與測試數據機器學習：從數據中學習知識、模式、規律。

機器學習的目標：

此時映射函數是將數據從像素點空間映射到我們人類的語義空間上。

如果原始數據是文本數據，則映射函數則是將文檔中的單詞序列映射成‘喜悅、憤怒’等表達情感的詞彙，完成情感分類。

從圖像中或者從文本中學習得到映射函數都實現了把數據從原始的數據空間映射到我們所定義的高級語義空間的這一個任務。

這也體現了機器學習中映射函數的重要性。

機器學習的分類：

1、監督學習(supervised learning) ：數據有標籤、一般爲迴歸或分類等任務。

2、無監督學習(un-supervised learning) ：數據無標籤、一般爲聚類或若干降維任務。

3、半監督學習 (semi-supervised learning)：一部分數據有標籤，一部分數據沒有標籤。

4、強化學習(reinforcement learning)：序列數據決策學習，一般爲與從環境交互中學習。

1.1監督學習中的分類問題

這類問題就是從標籤數據中學習得到映射函數f(數學好 = Yes,會編程 = Yes, 身體好 =?，嗓門大 =?), 然後通過給定的參數信息，我們就可以判斷這個人是否是程序員。

1.2 監督學習的重要元素

1.2.1 標註數據詳解，以及標記數據過程介紹：標記數據

1.2.3 損失函數

1.2.4 訓練數據與測試數據

經驗風險(empirical risk ): 訓練集中數據產生的損失。經驗風險越小說明學習模型對訓練數據擬合程度越好,但它僅反映了局部數據。

期望風險(expected risk): 當測試集中存在無窮多數據時產生的損失。期望風險越小，學習所得模型越好，但它無法得到全量數據。

結構風險最小化(structural risk minimization)：爲了防止過擬合，在經驗風險上加上表示模型複雜度的正則化項(regulatizer)或懲罰項(penalty term ) ：

1.2.5監督學習方法

1、生成方法(generative approach)

所學到的模型分別稱爲生成模型 (generative model) , 生成模型從數據中學習聯合概率分佈?(?, ?)（通過似然概率?(?|?) 和類概率?(?) 的乘積來求取）

典型方法爲貝葉斯方法、隱馬爾可夫鏈 , 聯合分佈概率?(?, ?)或似然概率?(?|?)求取很困難。

2、判別方法(discriminative approach) 。

判別方法直接學習判別函數?(?) 或者條件概率分佈?(?|?) 作爲預測的模型，即 判別模型 (discriminative model).。判別模型關心在給定輸入數據下，預測該數據的輸出是什麼。典型判別模型包括迴歸模型、神經網絡、支持向量機和Ada boosting等。