機器學習
machine learning是機器通過已知的內容,類似於人類一樣進行學習,並對同類型數據進行判斷的過程。
例如訓練圖片模型就是將每個像素點轉爲0到255之間的值,利用機器發現不同種類的圖片之間存在的映射。
有監督與無監督模型
- 監督學習是F(x)= sum 並且sum已知,可以通過已知的屬性進行預測,而且目標函數需要帶有“label”。
- 無監督學習。通過數據的潛在的模式和規則,無需預定義,並且同過“聚類”、“關聯”等發現數據中的隱藏的關係。
半監督學習
- 結合有監督與無監督同時進行學習,其中有少部分數據又“label”,沒有label的數據可以進行無監督學習進行分類。
分類與迴歸(classification and regression)
- 分類,如下圖,以布爾值的形式進行區別不同的類
- 公式表達爲: F(M[H][W])=1∣0,where M[i][j]∈[0,255],0<i<H,0<j<W
- 迴歸模型: 如下圖,橫座標代表房子的面積,縱座標表示價格。通過一個某事物的一個屬性來預測另一個變量的方式叫
Regression
- decision tree可以直接處理非數字特徵,但是通常使用one-hot將非數字的數據轉換爲另一個的方法。
使用Logistic Rgression
來輸出概率,可以結局分類的問題。
workflow:
- raw data -> 數據分離,normalization 和 數據清理
- training
- test data
- 超參數調整(Hyperparameter tuning)
將數據分爲兩組:訓練集、測試集(一般比例爲7:3,8:2,如果數據量特別大的話,可以分爲9:1)
欠擬合與過擬合(underfitting and overfitting)
- 欠擬合:model沒有找到規律(與實際情況相差很多)
- overfitting: 過渡於適應training data,甚至與noise也都適應了。解決方法:隨機drop掉部分模型,和加入regularization的算法。