機器學習實戰——機器學習基礎

  • 何爲機器學習
    機器學習就是把無序的數據轉換成有用的信息。
  • 關鍵術語
    1. 屬性(特徵):從各個方面描述一個事物,這些方面稱作屬性或者叫特徵
    2. 訓練集:用於訓練機器學習算法的數據樣本集合
    3. 目標變量:機器學習的結果
  • 主要任務
    機器學習主要分爲監督學習和無監督學習,監督學習必須知道即將預測的標稱變量是什麼,如分類和迴歸。無監督學習數據沒有類別信息,也不會給定目標值,主要包括聚類,密度估計等。
    監督學習:分類和迴歸,分類主要處理目標變量爲標稱型(有限個離散型)的任務,迴歸主要用於預測數值型數據(連續型),例如:數據擬合曲線,通過給定數據點的最優擬合曲線。
    無監督學習:聚類和密度估計,聚類指將數據集合分成由類似的對象組成的多個類的過程。密度估計指尋找描述數據統計值的過程。
監督學習的用途
算法 用途
k-近鄰算法 線性迴歸
樸素貝葉斯算法 局部加權線性迴歸
支持向量積 Ridge迴歸
決策樹 Lasson最小回歸係數估計
無監督學習的用途
算法 用途
k-均值 最大期望算法
DBSCAN Parzen窗設計
  • 算法選擇
    選擇合適的算法,需要考慮兩個問題:
    一、使用機器學習算法的目的,想要算法完成何種任務,如果想要預測目標變量的值,則可以選擇監督學習算法,否則選擇無監督學習算法。確定選擇監督學習算法後,需要進一步確定目標變量類型,如果目標變量時離散型則可以選擇使用分類算法,如果目標變量時連續性的數值,則可以選擇迴歸算法。確定選擇無監督學習算法後,進一步分析是否需要將數據劃分爲離散的組,如果這是唯一的需求則使用聚類算法,如果還需要估計數據與每個分組的相似度,子需要使用密度估計算法。
    二、需要分析或收集的數據是什麼
    主要了解數據以下特性:特徵值是離散型變量還是連續性變量,特徵值是否存在缺失的值,何種原因造成缺失值,數據中是否存在異常值,某個特徵發生的頻率等。

  • 開發過程

    1. 收集數據。
    2. 準備輸入數據
    3. 分析輸入數據
    4. 訓練算法
    5. 測試算法
    6. 使用算法
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章