原创 Hadoop YARN 安裝

Hadoop 2.X的配置教程不多,這裏有一篇很好的guide。 這裏大概摘了幾個要點: Hadoop之前幾乎是MapReduce計算模型的代名詞。而從2.X起,Hadoop致力於發展成在集羣之上的一個抽象層,在這個抽象層之上可以運行不限

原创 YouTube的視頻推薦算法

這篇是來自google 2007關於YouTube上視頻推薦的文章。它的一個重大意義在於,讓我們瞭解實際工程中,尤其是像YouTube這樣的大型視頻分享網站,推薦系統的架構是怎麼樣的,以及所遇到的問題。 文章指出YouTube上視頻推薦

原创 使用mapreduce並行化基於物品的協同過濾算法

由於item-based CF算法能對新用戶進行推薦,並且能對推薦做出合理的解釋,因此它在商用中的應用是很普遍的。[35]主要的貢獻則是將item-based CF算法使用map-reduce框架並行化。作者指出,在0-1評分下,基於物品

原创 從logistic regression到MCMC

在博客裏寫數學公式是個很頭疼的問題。我厭倦了一直使用截圖的辦法,使用mathtex也沒有直接寫latex方便。所以一個好的辦法是寫好latex,上傳生成的pdf。 簡介: logistic regression是個很強大很常見的模型,其

原创 數據結構複習(一) —— 最小堆

以前做ACM, 寫代碼用的是C。一毫一釐的細節都得自己碼。 現在傾向於問題本身的分析:該用什麼算法,什麼數據結構。因此Java是不二之選。 建立最小(大)堆的複雜度爲O(nlogn), 更新的複雜度爲O(logn) hdu 4006 一

原创 廣義線性模型(三)

注:所有圖片均來自[1] 前兩篇分別介紹了線性迴歸和logistic regression。可以看到這兩個模型參數更新公式是一樣的。這並非巧合,而是因爲它們都屬於廣義線性模型(Generalized Linear Models)。首先引

原创 使用吉布斯採樣求解LDA模型

LDA原論文用Variational Inference方法求解參數,但那個方法深究比較複雜。後來發現,統計之都中有個LDA的系列文章講解十分清晰、到位。這裏用我自己理解的思路記錄了這篇文章,稍稍提到了EM算法。 用latex生成,可以

原创 SVD與PCA

PCA(主成分分析)其實只是SVD(奇異值分解)的一個應用。本文講述了SVD和PCA的實現過程。並帶有兩個圖像處理的例子,以及python源代碼。出於美觀和效率角度考慮,我還是直接上傳latex生成的pdf文檔。可點擊這裏下載 部分截圖如

原创 Key Points from "Introduce to Data Science"

Week 1  Introduction ---------------------------------------------------------- Data Science refersto an emerging area

原创 不同情境下用於評測推薦系統準確率的指標

Evaluating Recommendation Systems [25]將準確率分成3類:①預測評分的準確率 ②預測usage的準確率 ③排序的準確率 —— Sorry,公式就不貼出了,可以Google之 ①預測評分的準確率 Ro

原创 生成模型中的高斯判別分析和樸素貝葉斯

設樣本爲X(大寫X表示向量),其類別爲y。下面的圖片若非特殊聲明,均來自cs229 Lecture notes 2。 用於分類的機器學習算法可以分爲兩種:判別模型(Discriminative learning algorithms)和生

原创 top-N推薦中以recall爲指標的實驗設計

衡量top-N推薦的性能一般使用recall。不過,實驗的設計並非那麼直觀。下面,先看幾個paper裏不同的實驗方法,然後做個總結。 [27]的實驗方法: 記處理後的(隱式)評分矩陣爲S,其中用戶u有過隱式反饋的物品集爲u+,沒有的集合爲

原创 廣義線性模型之線性迴歸(一)

注:本文若沒特殊聲明,所有截圖均來自cs229 Machine Learning Lecture notes 1 監督學習中,最常見的是線性迴歸和分類問題。然而,我們熟知的linear regression和logistic regre

原创 LDA原論文的部分解讀

本文主要是針對“Latent Dirichlet Allocation”部分的解讀。該paper除了提出LDA,還將其與LSI,pLSI以及其他生成模型做了對比。另外它提到了LDA的一個簡化版本,其實這個簡化版本就足夠用來做tweet的情

原创 廣義線性模型之logistic regression(二)

注:本文若沒特殊聲明,所有截圖均來自cs229 Machine Learning Lecture notes 1 Logistic regression的hypotheses爲   其中 被稱爲logistic function或者s