機器學習算法之有監督學習和無監督學習的區別

CDA數據分析師 出品

如今機器學習和人工智能是大家耳熟能詳的兩個詞彙,在我們日常生活中也是被高頻的提到。其實機器學習只是人工智能的一部分,是人工智能的一個子集,它往往是通過示例和經驗模型讓計算機去執行一些操作任務,研究人員和開發人員比較比較熱衷於它。在生活中,我們應用的很多東西其實都使用的是機器學習算法,例如我們使用的好多APP,包括AI助手、web搜索、手機翻譯等,現在你手機社交媒體新聞的推薦由機器學習算法提供支持,你在視屏網站上推薦的視頻、影視劇也是機器學習模型的結果,你現在聽歌軟件的每日歌曲推薦也是利用機器學習算法的強大功能來創建推薦你喜歡的歌曲列表等等,但是機器學習有許​​多不同的風格的應用。在這篇文章中,我們將探討有監督和無監督學習,這是機器學習算法的兩個主要類別。

一、監督學習

如果你有關注有關於人工智能的新聞,你可能已經聽說過AI算法需要很多人工標記的示例。這些故事指的是監督學習,這是機器學習算法中比較流行的類別。

監督式機器學習適用於你知道輸入數據結果的情況。假設你要創建一個圖像分類機器學習算法,該算法可以檢測貓,狗和馬的圖像。

要訓練AI模型,你必須收集貓,狗和馬照片的大型數據集。但是在將它們輸入機器學習算法之前,你必須使用它們各自類的名稱對其進行註釋。註釋可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或將元數據附加到圖像文件中,這是一項費力的手動任務。

標記數據後,機器學習算法(例如卷積神經網絡或支持向量機)將處理示例,並開發可將每個圖像映射到其正確類別的數學模型。如果對AI模型進行足夠的帶有標籤的示例訓練,它將能夠準確地檢測出包含貓,狗,馬的新圖像類別。

監督機器學習解決了兩種類型的問題:分類和迴歸。上面說明的示例是一個分類問題,其中機器學習模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。

迴歸機器學習模型不限於特定類別。它們可以具有連續的,無限的價值,例如客戶將爲產品支付多少費用或明天下雨的可能性。

一些常見的監督學習算法包括:

  • 線性和邏輯迴歸
  • 樸素貝葉斯
  • 支持向量機
  • 決策樹和隨機森林
  • 人工神經網絡

二、無監督學習

假設你是一個電子商務零售企業主,擁有數千個客戶銷售記錄。你想找出哪些客戶有共同的購買習慣,以便可以使用該信息向他們提出相關建議並改善你的追加銷售政策。問題在於你沒有預定義的類別將客戶劃分爲多個類別。因此,你不能訓練監督式機器學習模型來對客戶進行分類。

這是一個集羣問題,是無監督機器學習的主要用途。與監督學習不同,無監督機器學習不需要標記數據。它仔細研究了訓練示例,並根據它們的共同特徵將它們分爲幾類。

訓練有素的無監督機器學習算法會將你的客戶劃分爲相關的集羣。這將幫助你根據客戶與集羣中其他人的共同偏好來預測客戶將購買的產品。

K-means是衆所周知的無監督聚類機器學習算法。使用k均值的挑戰之一是知道將數據劃分爲多少個羣集。太少的包會打包不太相似的數據,而太多的簇只會使你的模型複雜且不準確。

除了聚類之外,無監督學習還可以執行降維。當數據集具有太多特徵時,可以使用降維。假設你有一個有關客戶的信息表,該表有100列。擁有有關你的客戶的大量數據可能聽起來很有趣。但實際上並非如此。

隨着數據中功能數量的增加,你還需要更大的樣本集來訓練準確的機器學習模型。你可能沒有足夠的樣本來訓練100列模型。太多的功能也增加了過度擬合的機會,這實際上意味着你的AI模型在訓練數據上表現良好,而在其他數據上表現不佳。

無監督的機器學習算法可以分析數據並找到不相關的特徵,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對於我們的客戶表,通過降維算法運行它後,我們可能發現與客戶的年齡和家庭住址相關的功能幾乎沒有關聯,因此我們可以將其刪除。

主成分分析(PCA)是一種流行的降維機器學習算法。

一些安全分析師還使用無監督的機器學習進行異常檢測,以識別組織網絡中的惡意活動。

無監督學習的好處之一是,它不需要監督學習必須經歷的費力的數據標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相比之下,通過將監督學習算法的輸出與測試數據的實際標籤進行比較,可以很容易地衡量監督學習算法的準確性。

現在你瞭解有監督和無監督的區別了嗎?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章