【課程筆記】空間數據挖掘方法(機器學習)

一、緒論

機器學習VS數據挖掘

分類的過程

 

二、模型評估

評估方法

評估模型之留出法:簡單粗暴,直接按2:1~4:1將數據集分爲訓練集:測試集。

評估模型之交叉驗證法:將數據集分爲k個互斥子集,一部分作爲訓練集,另一部分作爲測試集,循環這個過程。常令k=10,進行十折交叉驗證。使用全部樣本,即爲留一法。

評估模型之自助法:自助,有放回地採樣。效果一般(吧),不常用(吧)。

評估指標

率(查得準不準?判爲正例的樣本有多少是準確的?)與查率(查得全不全?實際爲真例的樣本是不是都查出來了?)

二者互相矛盾,F值將它們同時考慮。

分類任務中,常用“截斷點”將正例與反例分開。ROC曲線依次選擇不同的“截斷點”構成不同的分類器,預測,分別計算“真正率”(作爲橫軸)和“假正率”(作爲縱軸),連接數據點,作曲線。

ROC曲線及其曲線下的面積AUC,用於度量分類器的排序性能。

如何計算待測樣本屬於某一類的概率?條件似然CLL

 

比較檢驗

分類器A的準確率80%,分類器A的準確率90%,就能直接下結論說A優於B?不能,因爲測試性能≠泛化性能等等(詳見下圖裏的三個√)

如成對雙邊t檢驗法(t檢驗、查表等),還有其他的檢驗方法,不介紹了,反正類似於概率統計裏的那些假設檢驗方法。

 

三、線性學習

線性迴歸

x系列是各種屬性值;w和b可通過最小二乘法進行估計。

 

廣義線性迴歸

非線性函數

 

邏輯斯蒂迴歸

邏輯斯蒂迴歸不是“迴歸”,而是一種分類方法。邏輯斯蒂函數,可代替單位階躍函數,將回歸預測輸出的數值轉爲0/1(以二分類問題爲例)

 

多分類學習

 

 

 

 

九、無監督學習

無監督學習基礎知識

 

二、K均值聚類(k-means)

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章