1.機器學習
機器學習的主要任務就是分類。決定用某個機器學習算法進行分類,首先需要做的是算法訓練,即如何學習分類。通常我們爲算法輸入大量已分類數據作爲算法的訓練集。目標變量是機器學習算法的預測結果。
分類算法:目標變量是標稱型;
迴歸算法:目標變量是連續型的。
訓練樣本集必須確定知道目標變量的值,以便機器學習算法可以發現特徵和目標變量之間的關係。
知識表示:可以理解爲輸入與輸出之間的映射。
機器學習的另一項任務是迴歸,它主要用於預測數值型數據。分類和迴歸都屬於監督學習,因爲這類算法必須知道預測什麼,即目標變量的分類信息。
與監督學習對應的是無監督學習,此時數據沒有類別信息,也不會給定目標值。在無監督學習中,講數據集合分成由類似的多個類的過程被成爲聚類;將尋找描述數據統計值的過程稱之爲密度估計。
此外,無監督學習還可以減少數據特徵的維度,以便我們更加直觀的展示數據信息。
監督學習:分類,迴歸。
無監督學習:聚類,密度估計。
2.如何選擇合適的算法
必須考慮兩個問題:1.使用機器學習算法的目的;2.需要分析或收集的數據是什麼。
首先考慮是否存在預測目標變量的問題,然後考慮目標變量是離散型的還是連續型的;若不預測目標變量,則考慮是否只是聚類問題還是包括相似性問題的密度估計問題。
python語言缺點:時間效率不如Java和C。
NumPy函數庫:支持線性代數運算。
3.小結
學習機器學習算法,必須瞭解數據實例,每個數據實例由多個特徵值組成。分類是基本的機器學習任務,它分析未分類數據,以確定如何將其放入已知羣組中。