一、緒論
機器學習VS數據挖掘
分類的過程
二、模型評估
評估方法
評估模型之留出法:簡單粗暴,直接按2:1~4:1將數據集分爲訓練集:測試集。
評估模型之交叉驗證法:將數據集分爲k個互斥子集,一部分作爲訓練集,另一部分作爲測試集,循環這個過程。常令k=10,進行十折交叉驗證。使用全部樣本,即爲留一法。
評估模型之自助法:自助,有放回地採樣。效果一般(吧),不常用(吧)。
評估指標
查準率(查得準不準?判爲正例的樣本有多少是準確的?)與查全率(查得全不全?實際爲真例的樣本是不是都查出來了?)
二者互相矛盾,F值將它們同時考慮。
分類任務中,常用“截斷點”將正例與反例分開。ROC曲線依次選擇不同的“截斷點”構成不同的分類器,預測,分別計算“真正率”(作爲橫軸)和“假正率”(作爲縱軸),連接數據點,作曲線。
ROC曲線及其曲線下的面積AUC,用於度量分類器的排序性能。
如何計算待測樣本屬於某一類的概率?條件似然CLL
比較檢驗
分類器A的準確率80%,分類器A的準確率90%,就能直接下結論說A優於B?不能,因爲測試性能≠泛化性能等等(詳見下圖裏的三個√)
如成對雙邊t檢驗法(t檢驗、查表等),還有其他的檢驗方法,不介紹了,反正類似於概率統計裏的那些假設檢驗方法。
三、線性學習
線性迴歸
x系列是各種屬性值;w和b可通過最小二乘法進行估計。
廣義線性迴歸
非線性函數
邏輯斯蒂迴歸
邏輯斯蒂迴歸不是“迴歸”,而是一種分類方法。邏輯斯蒂函數,可代替單位階躍函數,將回歸預測輸出的數值轉爲0/1(以二分類問題爲例)
多分類學習
九、無監督學習
無監督學習基礎知識
二、K均值聚類(k-means)