《集體智慧編程》第8章構建價格模型個人筆記

原創

2018-08-24 03:43

第8章構建價格模型

8.1 K-最近鄰算法

本書使用KNN進行迴歸，對所有樣本點和待預測點的距離進行升序排序，取top k，這個k個樣本的目標值的均值作爲預測點的預測值。
可以爲近鄰點分配權重，距離越近權重越大，可以通過反函數、減法函數、高斯函數等求權重，然後對top k樣本計算加權平均作爲預測值。

8.2 交叉驗證

交叉驗證是將數據拆分成訓練集與測試集的一系列技術的統稱。這採用多次hold-out cv。

8.3 不同類型的變量

對於不同類型的變量，其變量本身的重要性大小就不一樣，比如有些變量特別大，使用歐式距離計算時這些大變量容易掩蓋其他一些變量的影響。所以這裏可採取按比例縮放的方法，最簡單的形式是將每個維度上的數值乘以一個在該維度上的常量。

常採用歸一化預處理數據

本章比較簡單，唯一有意思的地方可能就是在於它用knn進行了迴歸，其他書基本都是在做分類。介紹了幾種knn迴歸的trick，可以借鑑

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《集體智慧編程》數學公式

這篇博客的目的主要是爲了記錄這些公式，取自原書附錄B。 1.歐幾里得距離（Euclidean Distance）用途：計算距離，衡量相似度公式：代碼實現： def euclidean(p, q): sum

清风不识字12138

2020-06-16 12:18:34

集體智慧編程第二章匹配商品

我們在前面學習瞭如何爲指定人員尋找品味相近的人，以及如何向其推薦商品。但是如果我們想了解哪些商品是彼此相近的，應該如何做？匹配商品比如我們去淘寶，點擊某個商品的時候，側面總會給我們推薦一些類似商品。這是如何做到的呢？首先我們要將之

2020-07-08 03:44:42

集體智慧編程第二章提供推薦

我們要知道在購物網站中，如何構建一個系統，用以尋找具有相同品味的人，並根據他人的喜好自動給出推薦。一個協作型過濾算法通常的做法是對一大羣人進行搜索，並從中找到與我們品味相近的一小羣人。算法會對這些人所偏愛的其他內容進行考察，並將它們組合

2020-07-08 03:09:02

集體智慧編程----第三章發現羣組

第三章發現羣組監督學習和無監督學習對博客用戶進行分類對訂閱源中的單詞進行計數分級聚類繪製樹狀圖列聚類K-均值聚類針對偏好的聚類獲取數據和準備數據Beautiful Soup收集來自Zebo的結果定義距離度量標準對結果進行聚類以二維

2020-06-23 22:08:13

chapter7的一個小bug

一開始，作者說如果使用準備好的數據集，可以下載他的decision_tree_example.txt。然後通過my_data = [ line.split('/t') for line in file('decision_tree_ex

2020-06-20 16:56:09

《集體智慧編程》之決策樹（學習筆記）

原理：決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如，在貸款申請中，要對申請的風險大小做出判斷，圖是爲了解決這個問題而建立的一棵決策樹，從中我們可以看到決策樹的基本組成部分：決策節點、分支和葉子。決策樹中最上面的節

2020-06-16 16:34:51

《集體智慧編程》第六章

1.P126代碼爲了定義閾值，請修改初始化方法，在classifier中加入一個新的實例變量： def __init__(self, getfeatures): classifier.__init__(self, ge

清风不识字12138

2020-06-16 12:18:34

集體智慧編程中文版---第二章

中英文術語對照表英文中文 clustering j聚類 computationally intensive 計算量很大的 cross-product 叉乘 dendrogram 樹狀圖 group

2020-06-13 02:29:29

集體智慧編程第三章發現羣組

2020-02-23 09:01:28

《集體智慧編程》第8章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第五章優化

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第九章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第3章發現羣組個人筆記

2020-02-21 10:02:42

《集體智慧編程》第2章提供推薦個人筆記

2020-02-21 10:02:42

《集體智慧編程》第5章優化個人筆記

2020-02-21 10:02:42

24小時熱門文章

最新文章

最新評論文章