原创 學習排序 Learning to Rank:從pointwise和pairwise到listwise,經典模型與優缺點

       Ranking是信息檢索領域的基本問題,也是搜索引擎背後的重要組成模塊。本文將對結合機器學習的ranking技術——learning2rank——做個系統整理,包括pointwise、pairwise、listwise三大類

原创 推薦系統之CTR預估-FM算法解析

一、問題由來       在計算廣告和推薦系統中,CTR預估(click-through rate)是非常重要的一個環節,判斷一個商品是否進行推薦需要根據CTR預估的點擊率來進行。傳統的邏輯迴歸模型是一個廣義線性模型,非常容易實現大規模實

原创 個性化推薦系統之用戶畫像研究筆記

構建推薦系統的核心任務之一:準確地分析用戶的興趣特點(用戶畫像)     什麼是用戶畫像?      用戶畫像簡單來說是從用戶產生的各種數據中挖掘和抽取用戶在不同屬性上的標籤,如年齡、性別、職業、收入、興趣等。完備且準確的屬性標籤將有力的

原创 (window系統,ubuntu系統服務器)pycharm通過ssh連接遠程服務器

   1. 各種遠程連接終端操作浪費時間,麻煩 之前一致用putty,ssh,修改代碼,或者本地修改,上傳到服務器,各種不爽,現在改用xshell,但是有時候還是不方便感覺,於是自己配置了遠程連接pycharm,這樣不用總是到代碼裏修改,

原创 深度學習:詞嵌入Embedding

詞嵌入 詞嵌入其實就是將數據的原始表示表示成模型可處理的或者是更dense的低維表示(lz)。 One-hot Embedding 假設一共有m個物體,每個物體有自己唯一的id,那麼從物體的集合到有一個trivial的嵌入,就是把它映射到

原创 本地遠程連接服務器上的Jupyter Notebook設置方法

jupyter notebook是一個基於瀏覽器的python數據分析工具,使用起來非常方便,具有極強的交互方式和富文本的展示效果。jupyter是它的升級版,它的安裝也非常方便,一般Anaconda安裝包中會自帶。安裝好以後直接輸入ju

原创 Linux啓動nginx後在本地windows上使用瀏覽器通過ip無法訪問問題

原因: nginx默認的端口號是80,Linux沒開放80端口。 解決辦法: 使用命令:service iptables stop 關閉防火牆就ok了。    

原创 機器學習-聚類系列-層次聚類

層次聚類          層次聚類(Hierarchical Clustering)是聚類算法的一種,通過計算不同類別數據點間的相似度來創建一棵有層次的嵌套聚類樹。在聚類樹中,不同類別的原始數據點是樹的最低層,樹的頂層是一個聚類的根節點

原创 決策樹--信息增益、信息增益比、Geni指數的理解

決策樹       是表示基於特徵對實例進行分類的樹形結構 從給定的訓練數據集中,依據特徵選擇的準則,遞歸的選擇最優劃分特徵,並根據此特徵將訓練數據進行分割,使得各子數據集有一個最好的分類的過程。 決策樹算法3要素:   》特徵選擇  

原创 常用的網絡協議有哪些,分別是什麼含義

ARP(Address Resolution Protocol)地址解析協議       它是用於映射計算機的物理地址和臨時指定的網絡地址。啓動時它選擇一個協議(網絡層)地址,並檢查這個地址是否已經有別的計算機使用,如果沒有被使用,此結點

原创 請聊聊你所瞭解的推薦系統算法

推薦系統算法如果根據推薦的依據進行劃分,有如下三大類算法: 一、Content-based recommenders:推薦和用戶喜歡的商品相似的商品。主要是基於商品屬性信息和用戶畫像信息的對比。核心問題是如何刻畫啊商品屬性和用戶畫像以及效

原创 CTR預估中GBDT與LR融合方案

1、背景         CTR預估(Click-Through Rate Prediction)是互聯網計算廣告中的關鍵環節,預估準確性直接影響公司廣告收入。CTR預估中用的最多的模型是LR(Logistic Regression)[1

原创 怎麼解決推薦系統中的冷啓動問題

1、冷啓動問題定義 推薦系統需要根據用戶的歷史行爲和興趣預測用戶未來的行爲和興趣,對於BAT這類大公司來說,它們已經積累了大量的用戶數據,不發愁。但是對於很多做純粹推薦系統的網站或者很多在開始階段就希望有個性化推薦應用的網站來說,如何對用

原创 推薦系統中使用CTR排序的f(x)的設計-傳統模型篇

一.什麼是ctr? ctr即點擊率,在推薦系統中,通常是按照ctr來召回的內容子集進行排序,然後再結合策略進行內容的分發。 二.ctr預估模型的發展 ctr預估模型的公式:y=f(x),y的範圍爲[0, 1],表示廣告被點擊的概率。 1.

原创 優化方法總結(梯度下降法、牛頓法、擬牛頓法等)

梯度下降法 梯度下降法是最簡單,也是最常用的最優化方法。梯度下降法實現簡單,當目標函數是凸函數時,梯度下降法的解是全局解/一般情況下,其解不保證是全局最優解,梯度下降法的速度也未必是最快的。梯度下降法的優化思想是用當前位置負梯度方向作爲搜