機器學習“傻瓜式”理解(2)基礎概念理解

0.何爲機器學習?

舉一個生活中的栗子,在郵箱系統中一定存在着這樣一個功能:垃圾郵件過濾功能。問題便出現了:何爲垃圾郵件?我們需要去編寫一定的規則去幫助計算機去識別出垃圾郵件將其過濾掉。“去編寫規則幫助計算機識別”這一動作我們便可將其爲機器學習的過程。
再舉一個栗子,想象這樣一個場景,將你自己視爲一臺“計算機”,你需要去面對年末考試,你需要進行大量的練習(讀取大量數據並訓練),然後去進行預測未知的題目(需要預測和進行機器學習的數據),從而取得好成績。我們所做的這一過程便和機器學習類似,我們需要去將未知的數據去預測準確,而不是止步於在現有的數據上取得好成績。
總結圖
機器學習理解圖

1.包括以及應用

本博客範圍

本博客會講解一些主要的機器學習算法,包括kNN、線性迴歸、多項式迴歸、邏輯迴歸、模型正則化、PCA、SVM、決策樹、隨機森林、集成學習、模型選擇、模型調試。以及這些算法在scikit-learn中的應用。

應用

例如在判斷信用卡的發放風險性、電子商務平臺的喜歡系統、語音識別系統、市場方面、安全醫療領域、金融領域、無人駕駛、智能翻譯等方面具有重要的應用。

2.基礎概念理解

機器學習中有兩個十分基礎且重要的名詞,分別爲特徵和樣本:

**特徵(Feature):**在機器學習的過程中,爲了達到訓練模型(fit)的目的,需要注入一些數據,我們稱這樣的數據便爲特徵數據。
**樣本(Label):**小編通常稱之爲“結論”,也可以理解爲我們將訓練出來的模型去預測爲未知點得到的數據。

機器學習通常情況下解決的主要任務包括:

**分類問題:**例如緊接着要陳述的KNN算法就是解決分類問題最簡單的算法。分類問題最後得到的結果是一個類別,例如我們在預測腫瘤問題過程中最後得到的結論是惡性(positive)或者是良性(negative)。
**迴歸問題:**迴歸問題包含衆多算大,例如線性迴歸,KNN算法也可以實現迴歸問題。我們可以這樣理解迴歸問題,最後得出的結論是一個連續的數值,例如股票或者房價的預測,我們都可以使用迴歸問題去進行解決。

機器學習算法的主要分類:

**監督學習:**所謂監督學習通俗的理解便是我們在訓練我們算法過程中餵給機器的數據帶有Label,也可以理解爲我們對我們的數據進行了正確答案的劃分,這種劃分就是監督的信息。
**非監督學習:**此種學習方式和監督學習恰恰相反,我們餵給計算機的數據只包括Feature,不包括Label,我們需要進行聚類分析。例如電商平臺的客戶類型,我們需要根據客戶的喜好,瀏覽度對客戶進行分類。
**半監督學習:**這種方式是最常見的一種方式,一般數據給予了Label,另一半沒有,通常我們會這樣解決:先使用無監督學習手段對數據進行處理,然後通過監督學習手段進行模型的訓練和預測。
**增強學習:**顧名思義,就是通過某種特定手段,根據實時的環境變化結合不斷的反饋不斷改進機器學習算法的過程。例如無人駕駛,機器人等等。
增強學習
另外機器學習算法還包括批量學習(離線學習),在線學習,參數學習和非參數學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章