【機器學習實戰】chapter 1

1.機器學習

機器學習的主要任務就是分類。決定用某個機器學習算法進行分類,首先需要做的是算法訓練,即如何學習分類。通常我們爲算法輸入大量已分類數據作爲算法的訓練集。目標變量是機器學習算法的預測結果。

分類算法:目標變量是標稱型;

迴歸算法:目標變量是連續型的。

訓練樣本集必須確定知道目標變量的值,以便機器學習算法可以發現特徵和目標變量之間的關係。

知識表示:可以理解爲輸入與輸出之間的映射。

機器學習的另一項任務是迴歸,它主要用於預測數值型數據。分類和迴歸都屬於監督學習,因爲這類算法必須知道預測什麼,即目標變量的分類信息。

與監督學習對應的是無監督學習,此時數據沒有類別信息,也不會給定目標值。在無監督學習中,講數據集合分成由類似的多個類的過程被成爲聚類;將尋找描述數據統計值的過程稱之爲密度估計

此外,無監督學習還可以減少數據特徵的維度,以便我們更加直觀的展示數據信息。

監督學習:分類,迴歸。

無監督學習:聚類,密度估計。

2.如何選擇合適的算法

必須考慮兩個問題:1.使用機器學習算法的目的;2.需要分析或收集的數據是什麼。

首先考慮是否存在預測目標變量的問題,然後考慮目標變量是離散型的還是連續型的;若不預測目標變量,則考慮是否只是聚類問題還是包括相似性問題的密度估計問題。

python語言缺點:時間效率不如Java和C。

NumPy函數庫:支持線性代數運算。

3.小結

  學習機器學習算法,必須瞭解數據實例,每個數據實例由多個特徵值組成。分類是基本的機器學習任務,它分析未分類數據,以確定如何將其放入已知羣組中。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章