原创 機器學習相似度

相似度意義 在機器學習的各種領域都會遇到需要去衡量兩個樣本或者兩個特徵之間的關係的情況,因此就需要一種準則去數值化反映這種差別–相似度。相似度的計算方法有很多種,每種都有着各自的優缺點。下面詳細展開介紹 幾種重要的相似度計算方法

原创 推薦問題中ID類特徵的處理辦法

ID類特徵處理辦法什麼是id類特徵onehottfidfID類特徵embeddingembedding直接嵌入到模型中ids通過上下文關係轉化爲embedding 什麼是id類特徵 舉騰訊2020年的廣告大賽爲例子 如上圖所示:

原创 GBDT分類問題

GBDT分類問題 GBDT處理分類問題的做法類似於LR方法. LR:P(y=1∣X)=sigmoid(WTX)=11+e−WTX(1)LR:P(y=1|X)=sigmoid(W^TX)=\frac{1}{1+e^{-W^TX}}

原创 推薦系統:CTR模型學習總結--LR、FM、FFM、Wide and Deep、DeepFM

推薦系統概括推薦系統方法綜述推薦系統的目的評價指標AccuracyloglossAUCF1 scoreCollaborative FliterCTRLRPOLY2FMFFM小結LR+GBDTLR+DNNWide and deepD

原创 神經網絡反向求導不可導情況處理

神經網絡反向求導不可導情況處理激活函數不可導池化不可導針對平均池化:max池化 激活函數不可導 深度學習算法通常需要進行反向求導,來更新模型的參數,這就要求激活函數滿足處處可導的性質,例如傳統的sigmoid函數等。但是,爲了解決

原创 python樹結構基礎 包含廣度遍歷和深度遍歷

代碼塊 代碼塊語法遵循標準markdown代碼,例如: class tree: def init(self,item=None,left=None,right=None): #self.root=node(i

原创 基於gini係數的決策樹代碼

import gini import tree import operator from math import pow def cal_gini_index(data): total_sample=len(data)