原创 gbdt,xgb,lgb總結

最近學習了gradient boost+Decision Tree的原理;xgboost,lightgbm論文原文。有一些收穫,gbdt總結的筆記比較多 就沒放上來。主要看下xgb,lgb的時間複雜度 & 部分總結點 1.時間複雜

原创 kaggle kernel 學習筆記

學習鏈接 https://www.kaggle.com/learn/intermediate-machine-learning 3.Missing Values 1.drop columns # Get names of column

原创 FM&FFM初步理解

0.Reference 美團FFM: https://tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html CMUpdf

原创 GBDT輸出形式理解

0.訓練過程 "放大"錯誤樣本,基學習器的個數==訓練的迭代次數 1.輸出形式 二分類: 每個基學習器輸出one-hot向量(長度==num_leaves) one-hot to int prediction = num_boost_

原创 word2vec之skip-gram算法原理

skip-gram算法原理 1.input,output,target input的某個單詞的one-hot編碼(11000 詞彙量的總數目) output其他所有單詞的概率(softmax 輸出也是11000) target是相近

原创 推薦系統實踐-用戶行爲數據-閱讀筆記2

#用戶行爲數據簡介 基於用戶行爲的推薦算法 ==> 協同過濾算法 用戶和網站不斷地互動,使得推薦列表過濾掉不感興趣的物品 顯性反饋 + 隱形反饋 用戶行爲的表格 舉例: user id item id (行爲對象) behav

原创 推薦系統實踐-基於鄰域算法-閱讀筆記3

#2.基於鄰域的推薦算法 #2.1 User-CF算法 1.計算用戶之間的相似度,得到目標用戶的興趣相似的集合 2.從這個集合中選取目標用戶沒有使用的物品作爲推薦 流程 計算用戶的相似度 餘弦相似度 1.建立物品-用戶的倒排索引表,通

原创 推薦系統實踐-閱讀筆記5

#三.冷啓動問題 1.簡介 2.利用用戶註冊信息 3.選擇合適的物品 (用戶註冊後讓其自主選擇類別) 選擇區分度大的物品 P105 評價區分度 4.利用物品的內容信息 5.發揮專家作用 #四.利用用戶標籤數據 UGC標籤 user

原创 推薦系統實踐-評價方法-閱讀筆記1

評價方法 1.離線實驗 通過日誌獲取用戶的行爲數據=>作爲訓練測試集 離線的評價指標=>預測準確率 缺點: 無法關注商業指標,點擊率轉化率 2.在線A/Btest 如何分桶分層? 3.評價指標 3.1 用戶評價(e.g. 實際購買率

原创 指針和引用的區別

指針和引用的區別? 指針會新構建一個變量,而引用則不會 e.g. int* p; void func(int* p1){}; 在指針傳遞中,實參是p,形參是p1這是兩個不同的變量。 1.可以通過修改p1指向的變量,來改變p指向的變量

原创 機器學習基石-林軒田-課程總結

https://github.com/cuixuage/Machine_Learning Lecture Directory When can Machines Learn? 1.機器學習問題 2.二分類 3.不同的ML類型 4.可

原创 機器學習技法-林軒田-課程總結

https://github.com/cuixuage/Machine_Learning Lecture Directory How can machines learn by Embedding numerous features

原创 Algorithm 4th Sorting--學習筆記

代碼鏈接: https://github.com/ISCASTEAM/Algorithm 1.Elementray Sorts Select sort P156 key:選擇第i小的元素放入a[i]位置 note:運行時間和輸入順序

原创 Algorithm 4th Searching--學習筆記

代碼鏈接: https://github.com/ISCASTEAM/Algorithm Elementray Tables 無序鏈表 key: 插入時間O(1) 查找時間O(N) note: 新元素直接插入鏈表頭部 有序數組 k

原创 Algorithm 4th Context--學習筆記

代碼鏈接: https://github.com/ISCASTEAM/Algorithm 事件驅動的粒子碰撞 B-樹 查找成本很低 需要空間大 後綴數組 字符串的子串中最長的公共前綴問題 思路: 排序的後綴數組,最長的公共前綴在相鄰