machine learning基礎知識(Leetcode)

機器學習

machine learning是機器通過已知的內容,類似於人類一樣進行學習,並對同類型數據進行判斷的過程。
例如訓練圖片模型就是將每個像素點轉爲0到255之間的值,利用機器發現不同種類的圖片之間存在的映射。

有監督與無監督模型

  • 監督學習是F(x)= sum 並且sum已知,可以通過已知的屬性進行預測,而且目標函數需要帶有“label”。
  • 無監督學習。通過數據的潛在的模式和規則,無需預定義,並且同過“聚類”、“關聯”等發現數據中的隱藏的關係。

半監督學習

  • 結合有監督與無監督同時進行學習,其中有少部分數據又“label”,沒有label的數據可以進行無監督學習進行分類。

分類與迴歸(classification and regression)

  • 分類,如下圖,以布爾值的形式進行區別不同的類
  • 公式表達爲: F(M[H][W])=1∣0,where M[i][j]∈[0,255],0<i<H,0<j<W
    在這裏插入圖片描述
  • 迴歸模型: 如下圖,橫座標代表房子的面積,縱座標表示價格。通過一個某事物的一個屬性來預測另一個變量的方式叫Regression
  • decision tree可以直接處理非數字特徵,但是通常使用one-hot將非數字的數據轉換爲另一個的方法。
    在這裏插入圖片描述
    使用Logistic Rgression來輸出概率,可以結局分類的問題。

workflow:

  • raw data -> 數據分離,normalization 和 數據清理
  • training
  • test data
  • 超參數調整(Hyperparameter tuning)

將數據分爲兩組:訓練集、測試集(一般比例爲7:3,8:2,如果數據量特別大的話,可以分爲9:1)

欠擬合與過擬合(underfitting and overfitting)
在這裏插入圖片描述

  1. 欠擬合:model沒有找到規律(與實際情況相差很多)
  2. overfitting: 過渡於適應training data,甚至與noise也都適應了。解決方法:隨機drop掉部分模型,和加入regularization的算法。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章