推薦引擎反思

注：原文先是介紹了netflix的競賽和推薦系統的分類，這些內容都被我略過，直接翻譯了最主要的問題。所以，下文中提到的“競爭者”就是netflix競賽的參與者，而“第五類算法”就是指如下四類推薦算法之外的第五種。

四類推薦算法：
    * 個性化的推薦：基於用戶過去的行爲作出推薦。
    * 社會推薦：基於相似用戶的過去的行爲進行推薦。
    * 基於item的推薦：基於事物間的相似性進行推薦。
    * 前面三種方法的混合。

車庫裏的人

推薦問題的複雜性在於它廣泛的可能性。這即是說，很難精確地確定事物的哪一個基因適用於某個具體的人，很難指出一部電影或音樂的哪一部分特點讓我們給它打5分。要轉變技術人員的思維是很困難的。《連線》文章上提到了一個競爭者使用的是一個非常罕見的計謀來使得他的算法能有效運行。

他是來自倫敦的Gavin Potter，暱稱是車庫裏的人，他的方法的依據是人類的惰性。顯然，對電影的打分依賴於我們對之前看過的電影的打分。例如，如果你連續看了三部電影，並給它們打了4分，當你看到下一部稍好一點的電影時，會給它打5分。反之，如果你連續地給三部電影打了1分，那麼當你看到如上一樣的一部5分電影時，你卻會打出4分。

當你還在思考這是不是真的的時候，你會發現這種算法現在已經佔據了第五類推薦算法的位置，並在不斷地發展當中，而其它的算法則發展甚少。通過一點心理學的知識來增強數學公式無疑是個好辦法，這是我們接下來要談及的。用過濾器來取代推薦系統

這樣的情況曾多少次發生在你的身上：一個朋友給你推薦了一部電影或一個賓館，你高高興興地去了影碟店或賓館，但卻敗興而歸？很多！很顯然，炒作使得期望的門檻提高了，反而更多的可能是帶來失望。以數學語言來說，這種類型的錯誤被稱爲假陽性。現在考慮另一種情況，如果你的朋友不是給你推薦一部電影，而是告訴你你不會喜歡某部電影的，所以不用花錢去租它回來了；這種情況下會發生什麼？

這種情況會帶來些什麼壞處呢？不會有什麼壞處，因爲很可能你就不會去看這部電影。但即使你看了，並且你也喜歡它，你也不會感覺到有負面的情緒影響。這個例子說明了我們對於假陽性和假陰性錯誤的不同反應。假陽性使我們感到沮喪，但假陰性不會。以過濾代替推薦的思想就是爲了平衡這樣的一種現象。

當Netflix作出推薦時，它總會有一個出錯的比率。或早或晚地，它總會有出現差錯的時候，然後會向你推薦一部你不喜歡的電影。如果推薦系統不是這樣做，而是向你展示一堆新的片子，同時附帶一個按鈕：把那些我不喜歡的過濾掉。算法是一樣的，但用戶感受卻大不一樣的。

實時過濾

在實時新聞的時代，這種想法變得越來越重要與強大。我們越來越需要對新信息進行連續地過濾。拿我們的RSS閱讀器來說，過濾是我們每天都得乾的事情。我們從新聞流的角度來看這個世界，其中過去的事情是不相關的。我們不需要推薦，因爲我們已經訂閱得太多了。我們需要的是噪聲過濾。需要一個算法會說：“嘿，你一定不會喜歡那個東西的，隱藏它吧。”

如果機器能做到那樣，積極地把我們周圍無用的信息扔開，剩下的我們就可以自己來處理了。從郵件過濾系統來借鑑一下，如果我們身邊的工具都有一個按鈕：“給我把這個過濾一下”，可能這個功能還是默認啓用的，那我們就能做更多的事情了。

結論

構建一個完美的推薦引擎是一件非常複雜的任務。不管用什麼方法，協同過濾或基於item相似的推薦都是不會被原諒的商業工具，假陽性般的錯誤會很快地讓用戶流失。可能把心理學應用於這個問題可以讓用戶懂得感激這些複雜的算法所做的事情。如果機器過濾掉那些我們一定不會喜歡的，而不是給我們推薦一些東西，我們可能會更加地寬容和給予更多的理解。

本文出自：http://www.yeeyan.com/articles/view/16804/17053
原文鏈接：http://www.readwriteweb.com/archives/rethinking_recommendation_engines.php

推薦引擎反思

搜源搜索代碼

推薦引擎反思

搜索引擎蜘蛛爬蟲原理

google搜索引擎的策略是什麼？

Scrapy 輕鬆定製網絡爬蟲

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結