原创 推薦系統(九)Factor Machines

背景 有時系統中用戶的行爲比較稀少,採集到的樣本很稀疏,這樣直接導致常用的擬合方法學到的模型存在嚴重的過擬合問題,即特徵之間存在嚴重的依賴和隔離關係,使得模型無法進一步學習到精準的內在規律。爲了解決這一問題,FM模型應運而生,其基

原创 樹系列(四)boosting_tree

模型 採用加法模型和前向分步算法,以決策樹爲基函數的提升方法被稱爲提升樹,由如下公式表示, fM(x)=∑m=1MT(x;θM)fM(x)=∑m=1MT(x;θM) T(x;θM)T(x;θM) 表示決策樹,θMθM 表示決策

原创 數學(三)信息熵、相對熵(KL散度)和交叉熵

『熵』這個詞語聽起來很高大上,如果搞明白含義就會發現它其實比較簡單,但是如果不經常用的話,會時長忘記,因而寫這篇文章是爲了備忘。如果大家想弄清楚熵以及熵延伸出來的相對熵(KL散度)以及交叉熵的話,也可以參考下這篇博客。 關鍵字:

原创 ML基本知識(八)K近鄰法

k近鄰算法 輸入:訓練數據集T={(xi,yi)}i=1NT=\{(x_i, y_i)\}^N_{i=1}T={(xi​,yi​)}i=1N​, 其中xix_ixi​爲實例的特徵向量,yi∈{c1,c2,...,ck},i=

原创 ML基本知識(六)EM 算法

Jensen不等式 對於凸函數fff(f′′(x)≥0f''(x)\geq0f′′(x)≥0)和隨機變量XXX, 那麼有如下結論 E[f(x)]≥f(EX) E[f(x)]\geq f(EX)E[f(x)]≥f(EX) 如果f

原创 ML基本知識(九)樸素貝葉斯

基本方法 對於數據集T={(xi,yi)}i=1NT= \{(x_i,y_i)\}^{N}_{i=1}T={(xi​,yi​)}i=1N​,由獨立同分布的P(X,Y)P(X,Y)P(X,Y)產生,樸素貝葉斯通過訓練集學習聯合概

原创 推薦系統(三)Graph Embedding之LINE

上一篇博客推薦系統(二)Graph Embedding之DeepWalk中講到Graph Embedding的開山之作DeepWalk,該博客講述了在圖結構上進行RandomWalk獲取訓練樣本,並通過Word2Vec模型來訓練得

原创 推薦系統(七)協同過濾之UserCF

基本原理 核心思想 找到和用戶A相似的其他用戶,向A推薦這些其他用戶喜歡的物品。 用戶相似度: wuv=∣N(u)⋂N(v)∣∣N(u)∣∣N(v)∣ w_{uv} = \frac{|N(u)\bigcap N(v)|

原创 推薦系統(二)Graph Embedding之DeepWalk

事先聲明,這篇博客的適用人羣是對推薦系統和NLP知識有初步瞭解的同學,因爲如下會用到諸如embedding和word2vec的基本思想(其實我也只是對這兩方面有一些基本的認識),這篇博客的意義在於備忘和供大家參考。 關鍵字: e

原创 ML基本知識(七)極大似然(MLE)和極大後驗概率(MAP)

極大似然估計 首先說明的是,極大似然估計的理論是建立在數據{(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}\{(x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)}), ..

原创 LightGBM(一)LightGBM原理解析

契機 GBDT算法一個比較大的問題在於其耗時很大,因爲每次建立一棵樹的一個節點,都要遍歷所有的特徵,且對於每個特徵,都要搜索所有可能的分割值,才能找到具有最優分割點的最優特徵,訓練的耗時在工業界是沒有辦法接受的,因而需要從入下兩個

原创 DL基本知識(三)momentum梯度下降&python實現

事先聲明,這篇博客的適用人羣是剛開始學習梯度下降的同學,有無深度學習基礎不是特別重要,重要的是有一顆學習探索的心~ 關鍵字:momentum、函數求導、Python 一直以來,不是很懂隨機梯度下降中momentum的概念,後來

原创 DL基本知識(二)反向傳播推導&python實現

事先聲明一下,這篇博客的適用人羣是對於卷積神經網絡的基本結構和每個模塊都基本瞭解的同學。當然,如果各位大神看到我這篇博客有什麼不對的地方請大家積極指出哈,我一定好好改正,畢竟學習是一個不斷改進的過程。 關鍵字: 神經網絡、矩陣求

原创 編程(一)C++內存泄露排查方法

背景描述 最近工作的內容是搭建推薦系統的debug平臺,即將一次推薦請求過程中比較關鍵的推薦信息都以可視化的形式展現出來。舉個例子,一個推薦系統處理推薦請求大致分爲如下步驟(有點老老生常談): 涉及到很多路召回(recaller

原创 推薦系統(八)協同過濾之ItemCF

上一篇推薦系統(七)協同過濾之UserCF中UserCF的原理以及實驗步驟,本篇着重講述與之類似的ItemCF。 基本原理 核心思想 找到和用戶A看過物品相似的物品,向A推薦這些物品。 物品相似度 wi,j=∣N(i)⋂N