原创 算法(一)各種排序算法總結

排序算法的穩定性 假定在待排序的記錄序列中,存在多個具有相同的關鍵字的記錄,若經過排序,這些記錄的相對次序保持不變,即在原序列中,ri=rj,且ri在rj之前,而在排序後的序列中,ri仍在rj之前,則稱這種排序算法是穩定的;否則稱

原创 每週一文(一)The BellKor Solution to the Netflix Grand Prize

BASELINE PREDICTORS 基本思路 推薦系統中一大重要任務是對user-item rating的估計,即輸入一個用戶u和物品i,系統會輸出一個較爲精確的打分ruir_{ui}rui​,標識該用戶對該物品的喜好。衆多算

原创 推薦系統(七)協同過濾UserCF

基本原理 核心思想 找到和用戶A相似的其他用戶,向A推薦這些其他用戶喜歡的物品。 用戶相似度: wuv=∣N(u)⋂N(v)∣∣N(u)∣∣N(v)∣ w_{uv} = \frac{|N(u)\bigcap N(v)|

原创 C++內存泄露排查方法

背景描述 最近工作的內容是搭建推薦系統的debug平臺,即將一次推薦請求過程中比較關鍵的推薦信息都以可視化的形式展現出來。舉個例子,一個推薦系統處理推薦請求大致分爲如下步驟(有點老老生常談): 涉及到很多路召回(recaller

原创 ML基本知識(十)分類器評價指標

準確率和召回率 對於二分類問題,常用的評價標準爲精確率(precision)和召回率(recall), 通常以關注的類爲正類(正樣本),其他類爲負類(負樣本), 對於分對或者分錯,有下列四種情況: TP-> 把正類預測成正類 FN

原创 推薦系統(六)排序模型計算指標

Mean Average Precision (MAP) 對於一個query iii, 如果某個系統檢索出來的文檔集合DOCDOCDOC中排在前面的文檔都和iii相關,排在後面的都不相關,則證明這個系統的檢索能力較強,因而基於這個

原创 NLP(一)Word2Vec原理

事先聲明,這篇博客的適用人羣是想入門NLP知識的同學,希望能夠幫到大家~ 關鍵字: Word2Vec,NCE損失,層次SoftMax 如下是本篇博客的主要內容: 訓練數據獲取方式 模型構建 損失函數構建 總結 Word2

原创 ML基本知識(五)邏輯斯諦迴歸 VS 貝葉斯分類

在開始學習Andrew Ng 的機器學習的課程中,以爲自己把最大似然估計,最大後驗概率估計,以及logistic regression, 貝葉斯分類的關機搞的很清,但是上完了學校模式識別的課程之後,我的人生觀就徹底顛覆了。。。。待

原创 SVM系列(一)geometric margin 的推導問題

最近一段時間一直在看Andrew Ng的機器學習課程,看到SVM中的geometric margin 的推導過程的時候比較迷茫,下面是Ng的原話: The decision boundary corresponding to (

原创 ML基本知識(四)PCA理論基礎

首先聲明一下,我這隻有乾貨,沒有啥多餘的,可能大家比較不適應, 建議有一定大學數學基礎的讀者來看這篇水文,若有哪點講的不好的地方,請大家多多吐槽。 拿到的原始的數據的維度很大,而且其中有很多冗餘的信息,需要把這些信息過濾掉,但

原创 ML基本知識(一)查準率和查全率

在周志華老師的《機器學習》那本書上看了一下查準率和查全率,感覺不是很懂,就自己在網上查了一下,感覺有些懂了,所以寫下來加深印象。 首先先展示一下下面這幅圖: 查準率的意思就是在預測出來的正樣本中真實情況下的正樣本所佔的比例,即:

原创 DL基本知識(一)入門級卷積神經網絡

首先聲明這篇博客適用於有適當數學和計算機基礎的同學,因爲適用範圍較廣,因而我會從最基本的只是開始講解從機器學習一直到深度學習的延伸和發展。 爲了能夠讓更多的人瞭解深度學習的入門知識,自不量力地寫一篇基本的卷積神經網絡的入門教程

原创 推薦系統(四)Graph Embedding之Node2Vec

在之前的推薦系統(二)Graph Embedding之DeepWalk和推薦系統(三)Graph Embedding之LINE分別提到通過DFS和BFS的方法來遍歷user behavior圖結構,但這兩種方法的缺陷也比較明顯:

原创 ML基本知識(三)Logistic Regression個人理解

這段時間一直在看Andrew Ng的機器學習的公開課,感覺真的是很棒,極力推薦大家去看,這是對應的網易公開課的鏈接: http://open.163.com/special/opencourse/machinelearning.h

原创 推薦系統(五)Graph Convolution Network

本文嘗試通過最簡單易懂的語言來講解GCN(Graph Convolution Network)原理,希望能夠幫助大家理解GCN。這裏只是講解GCN的大致原理,公式細節上會省略一些常量,請大家見諒,畢竟這篇博客的目的在於GCN入門,