《Mining Large Streams of User Data for Personalized Recommendations》筆記

論文發表年份:2012
主要內容:1、當前在個性化推薦中如何使用數據挖掘技術
2、從 Netflix競賽中獲得的經驗;
3、Netflix競賽中主要使用的個性化推薦技術
4、展望

相對於數據挖掘技術,還存在很多可能對推薦效果影響更大的問題。比如用戶交互設計等。但這些不屬於本文關注範圍。
實際上,商業中使用的絕大多數高級的推薦系統很少是純粹的協同過濾或者基於內容這樣單一的推薦,而一般是混合的。

1.2.推薦系統中的數據挖掘方法
《Recommender Systems Handbook》中有專門的一章來介紹在推薦系統中使用數據挖掘技術。一般地,像PCA、SVD、決策樹、聚類、分類、神經網絡、貝葉斯及關聯規則等都能在推薦系統中使用
2.Netflix 競賽
2.1從競賽中獲得的經驗
netflix半程冠軍,經過了2000個小時的努力,共融合了107中算法,實現8.43%的提升。
3.Netflix個性化:不僅僅是評分預測
3.1消費者數據科學
Netflix是一家基於消費者數據科學的組織。也就是一家數據驅動的組織。實際是如何執行的呢?(對A/B test的輕微改變)
1)設定一個假設。比如,算法X能夠增加用戶參與度
2)設計測試
3)執行測試。將用戶分到不同的組中,每組的經歷不同,關注最終的反饋
4)讓數據說話。基於指標評估

Netflix從線下提出假設到線上模型部署的整個流程如下:
這裏寫圖片描述
Netflix針對的是家庭的推薦,所以不僅僅是推薦準確性,推薦的多樣性也非常的重要。此外,還有推薦結果被用戶是否能意識到。推薦被用戶意識到的好處有很多。比如,增加用戶的信任;爲了提高推薦效果,用戶更加積極的參與反饋。增加用戶
信任的另一種途徑是增加推薦的解釋。

排序
如何給用戶生成一個用戶感興趣的推薦列表。最直接最保險的方法是考慮物品的流行度。但流行度是和個性化相對的,如果只考慮流行度,那每個用戶的推薦列表都一樣。但是如果只考慮個性化,推薦列表可能包含很多質量很差的物品。所以實際
的排序中,需要兼顧考慮流行度和個性化。有什麼方法呢?
方法1:最直接的線性組合
這裏寫圖片描述

討論:我們需要更多的數據還是要更好的模型?
參考文獻【1】,【2】都宣稱更多的數據會帶來更好的效果,但模型對效果幾乎沒什麼影響。如下圖所示:
這裏寫圖片描述

但是,這種觀念只能說在某些情況下是正確的。但更多場景其實不然。本文作者總結的非常到位,如下:
將模型分爲高方差( high variance )模型和高偏差( high bias)模型。
存在兩種可能完全相反的原因會造成一個模型效果不好:
原因1:相對已有的數據量,模型太複雜了。這種場景稱之爲高方差,會造成過擬合(訓練誤差小,但測試誤差大)。解決這種問題可以減小特徵數量,或者增加數據。參考文獻【1、2】中涉及到的就是這種——相對於訓練樣本,特徵太多了。所以增加數據量能夠提高準確性。
原因2:我們的模型太簡單,無法“解析”已有的數據。這種場景叫做高偏差。你沒法通過增加更多數據來提高效果。如下圖所示:
這裏寫圖片描述
那麼,對於這種高偏差模型,是不是增加更多的特徵就一定有幫助呢? 那也要看情況。
數據還是非常重要的,但如果沒有正確的方法,數據就是噪音

研究方向
1.非明確評分
很多的推薦引擎是基於明確評分的。實際上明確的評分有時候存在噪聲等問題。能夠有效利用到那些用戶間接的評分/喜好可能會更好。這方面可以參考【3】、【4】、【5】和【6】。
2.基於上下文感知的推薦
【7】表明,在推薦中,考慮用戶所處的上下文(地點、時間),有實際的商業價值。
《Recommender Systems Handbook》有專門的一章介紹基於上下文感知的推薦。感興趣的可以去學習。

參考文獻:
【1】A. Halevy, P. Norvig, and F. Pereira. The Unreasonable Eectiveness of Data. IEEE Intelligent Systems,
24(2):8{12, March 2009
【2】M. Banko and E. Brill. Scaling to very very large corpora for natural language disambiguation. In Proc. of
ACL ‘01, pages 26{33, 2001.
【3】S. Rendle, C. Freudenthaler, Z. Gantner, and L. S.Thieme. BPR: Bayesian personalized ranking from implicit feedback. In Proceedings of the 25th UAI, 2009.
【4】D. Parra and X. Amatriain. Walk the Talk: Analyzing the relation between implicit and explicit feedback for preference elicitation. In User Modeling, Adaption and
Personalization, volume 6787, chapter 22, pages 255{268. Springer, 2011.
【5】D. Parra, A. Karatzoglou, X. Amatriain, and I. Yavuz.Implicit feedback recommendation via implicit-toexplicit ordinal logistic regression mapping. In Proc. of
the 2011 CARS Workshop.
【6】D. H. Stern, R. Herbrich, and T. Graepel. Matchbox:large scale online bayesian recommendations. In Proc.of the 18th WWW, 2009.
【7】M. Gorgoglione, U. Panniello, and A. Tuzhilin. The effect of context-aware recommendations on customer purchasing behavior and trust. In Proc. of Recsys ‘11,
pages 85{92, 2011.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章