機器學習基礎 | 監督學習與無監督學習的快速入門指南

介紹
監督學習和無監督學習有什麼區別?
對於機器學習的初學者和新手來說,這是一個常見的問題。答案是理解機器學習算法本質的核心。如果沒有明白監督學習與無監督學習之間的區別,你的機器學習之旅就無法繼續進行
實際上,這是你踏上機器學習之旅之初應該學習的東西。如果我們不瞭解線性迴歸,邏輯迴歸,聚類,神經網絡等算法的適用範圍,就不能簡單地跳到模型構建階段。
機器學習基礎 | 監督學習與無監督學習的快速入門指南
如果我們不知道機器學習算法的目標是什麼,我們將無法建立一個準確的模型。這就是監督學習與無監督學習的由來。
在這篇文章中,我將用例子討論這兩個概念,並回答一個大問題——如何決定何時使用監督學習或非監督學習?
什麼是監督學習?
在監督學習中,計算機是通過數據來訓練的。它從過去的數據中學習,並將學習到的東西應用到現在的數據中,以預測未來的事件。在這種情況下,輸入數據和期望的輸出數據都爲預測未來事件提供幫助。
爲了準確預測,輸入數據被標記了正確的類別。
機器學習基礎 | 監督學習與無監督學習的快速入門指南
監督機器學習分類
重要的是要先記住,所有有監督學習算法本質上都是複雜的算法,分爲分類或迴歸模型。
1) 分類模型:分類模型用於輸出變量可以分類的問題,例如“是”或“否”、“通過”或“失敗”。分類模型用於預測數據的類別。現實生活中的例子包括垃圾郵件檢測、情緒分析、考試記分卡預測等。
2) 迴歸模型:迴歸模型用於輸出變量爲實際值的問題,例如唯一的數字、美元、工資、體重或壓力。它通常用於根據先前的數據觀測預測數值。一些比較常見的迴歸算法包括線性迴歸、logistic迴歸、多項式迴歸和嶺迴歸。
機器學習基礎 | 監督學習與無監督學習的快速入門指南
監督學習算法在現實生活中有一些非常實際的應用,包括:















  • 文本分類
  • 人臉檢測
  • 簽名識別
  • 客戶發現
  • 垃圾郵件檢測
  • 天氣預報
  • 根據當前市場價格預測房價
  • 股票價格預測等
    什麼是無監督學習?
    另一方面,無監督學習是訓練機器使用既沒有分類也沒有標記的數據的方法,這意味着不能提供任何訓練數據,機器只能自己學習。機器必須能夠對數據進行分類,而無需事先提供任何有關數據的信息。
    其思想是將機器暴露在大量變化的數據中,並允許它從這些數據中學習,以提供以前未知的見解,並識別隱藏的模式。因此,沒有必要定義無監督學習算法的結果,相反,它確定了與給定數據集不同或有趣的內容。
    這臺機器需要編程才能自動學習。計算機需要理解結構化和非結構化數據。以下是無監督學習的精確說明:
    機器學習基礎 | 監督學習與無監督學習的快速入門指南
    1)聚類是最常見的無監督學習方法之一。聚類的方法包括將未標記的數據組織到稱爲聚類的集羣中。因此,集羣是類似數據項的集合。這裏的主要目標是發現數據點之間的相似性,並將相似的數據點分組到一個集羣中。
    2)異常檢測是指識別與大部分數據有顯著差異的稀有項、事件或觀測值的方法。我們通常在數據中尋找異常或異常值,因爲它們是可疑的。異常檢測常用於銀行詐騙和醫療差錯檢測。
    無監督學習算法的應用
    無監督學習算法的一些實際應用包括:








  • 欺詐檢測
  • 惡意軟件檢測
  • 數據輸入過程中人爲錯誤的識別
  • 進行精確的購物籃分析等
    你應該怎麼選擇監督學習和無監督學習?
    在製造業中,哪種機器學習方法最適合給定的任務受着有許多因素的影響。而且,由於每個機器學習問題都是不同的,決定使用哪種技術是一個複雜的過程。
    一般來說,磨練正確機器學習方法的一個好策略是:


  • 評估數據。它有標籤嗎?是否有專家知識支持附加標籤?這將有助於確定是否應使用有監督、無監督、半監督或強化的學習方法
  • 明確目標。這個問題是反覆出現的嗎?或者,該算法是否有望預測新的問題?
  • 回顧在維數(特徵、屬性或特徵的數量)方面可能適合該問題的現有算法。候選算法應該適合整個數據量及其結構
  • 研究算法類型在相似問題中的成功應用
    最後的話
    監督學習和非監督學習是機器學習領域的關鍵概念。在學習不同的機器學習算法之前,對基礎知識的正確理解是非常重要的。
    原文鏈接:https://www.analyticsvidhya.com/blog/2020/04/supervised-learning-unsupervised-learning/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章