《集體智慧編程》第8章 構建價格模型 個人筆記

第8章 構建價格模型

8.1 K-最近鄰算法

本書使用KNN進行迴歸,對所有樣本點和待預測點的距離進行升序排序,取top k,這個k個樣本的目標值的均值作爲預測點的預測值。
可以爲近鄰點分配權重,距離越近權重越大,可以通過反函數、減法函數、高斯函數等求權重,然後對top k樣本計算加權平均作爲預測值。

8.2 交叉驗證

交叉驗證是將數據拆分成訓練集與測試集的一系列技術的統稱。這採用多次hold-out cv。

8.3 不同類型的變量

對於不同類型的變量,其變量本身的重要性大小就不一樣,比如有些變量特別大,使用歐式距離計算時這些大變量容易掩蓋其他一些變量的影響。所以這裏可採取按比例縮放的方法,最簡單的形式是將每個維度上的數值乘以一個在該維度上的常量。

常採用歸一化預處理數據

本章比較簡單,唯一有意思的地方可能就是在於它用knn進行了迴歸,其他書基本都是在做分類。介紹了幾種knn迴歸的trick,可以借鑑

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章