原创 xDeepFM模型

xDeepFM是微軟2018年發的一篇新論文,它是用來把二階、三階、四階組合一層一層做出來,但無非它用的是類CNN的方式來做這個事的。這是第二個路線的兩個代表。儘管這個符合模型發展趨勢,我個人認爲這種模型太複雜,真正部署上線成本比較高,

原创 DeepFM模型

DeepFM: 在DeepFM提出之前,已有LR,FM,FFM,FNN,PNN(以及三種變體:IPNN,OPNN,PNN*),Wide&Deep模型,這些模型在CTR或者是推薦系統中被廣泛使用。但是,這些模型普遍都存在兩個問題: 偏向於提

原创 Wide & Deep模型

Wide&Deep的右邊就是DNN部分,左邊的FM Function用的是線性迴歸,其特徵組合需要人去設計。 Wide&Deep模型。它混合了一個線性模型(Wide part)和Deep模型(Deep part)。這兩部分模型需要不同的

原创 GBDT+LR

一、介紹 本文主要介紹Facebook提出的CTR預估模型LR(Logistic Regression)+GBDT。當時深度學習還沒有應用到計算廣告領域,Facebook提出利用GBDT的葉節點編號作爲非線性特徵的表示,或者說是組合特徵

原创 kmeans

import numpy as np def get_dist(vec1, vec2): # 兩個向量之間的歐幾里德距離 return np.sqrt(np.sum(np.power(vec1 - vec2, 2)

原创 機器學習中的損失函數

雖然損失函數可以讓我們看到模型的優劣,並且爲我們提供了優化的方向,但沒有任何一種損失函數適用於所有的模型。損失函數的選取依賴於參數的數量、異常值、機器學習算法、梯度下降的效率、導數求取的難易和預測的置信度等若干方面。 本文中所有的代碼和圖

原创 定價項目

https://www.zhihu.com/question/295475618 按時間段分割統計,取log,缺失值處理,不均衡採樣等。 比賽一般有固定的評估指標,而實際中這個指標很多時候和真實的業務訴求有偏差,比如以前寫過篇AUC分析的

原创 面試常考算法題補充

二叉樹先序遍歷的非遞歸實現: def preOrder(root): if not root: return stack = [root] while stack: node =

原创 面經

算法面經+春秋招總結(含BAT TM W等) 作者:泡了個泡 鏈接:https://www.nowcoder.com/discuss/127357 來源:牛客網   本人真·末流985軟件工程本碩,研究方向推薦系統(但是整個實驗室也只有我

原创 AUC

引言 CTR問題我們有兩種角度去理解,一種是分類的角度,即將點擊和未點擊作爲兩種類別。另一種是迴歸的角度,將點擊和未點擊作爲迴歸的值。不管是分類問題還是迴歸問題,一般在預估的時候都是得到一個[0,1]之間的概率值,代表點擊的可能性的大小。

原创 Batch Normalization

4、Batch Normalization 4.1 爲什麼要做BN 我們首先來思考一個問題,爲什麼神經網絡需要對輸入做標準化處理?原因在於神經網絡本身就是爲了學習數據的分佈,如果訓練集和測試集的分佈不同,那麼導致學習的神經網絡泛化性能大大

原创 機器學習梯度下降優化算法

1、常見的機器學習優化器 1.1 gradient descent 1.1.1 全量梯度下降(Batch gradient descent) 每次使用全量的訓練集樣本來更新模型參數,即θ=θ−η⋅∇θJ(θ)。優點:每次更新都會朝着正確的

原创 CTR預估算法(深層模型)

1. CTR預估 CTR預估數據特點: 輸入中包含類別型和連續型數據。類別型數據需要one-hot,連續型數據可以先離散化再one-hot,也可以直接保留原值 維度非常高 數據非常稀疏 特徵按照Field分組 CTR預估重

原创 FFM模型及其在推薦系統中的應用

用FM/FFM模型做召回意味着什麼 首先,第一個問題是:FM/FFM模型一般是作爲典型的Ranking階段的模型,怎麼理解用它來做召回這件事情呢? 向上圖這麼做推薦,就是用一個模型把召回和排序兩個階段的事情全做掉。這也是本文要探討的另外

原创 文本表示

導言 文本分類是自然語言處理中研究最爲廣泛的任務之一,通過構建模型實現對文本內容進行自動分類,有很多應用場景,比如新聞文章主題分類,產品評論情感分類,檢索中用戶查詢的意圖分類等等。文本分類的大致流程:文本預處理,抽取文本特徵,構造分類器。