最近推薦引擎成爲顯學,主要原因應該是電子商務的蓬勃發展。頭些日子和圖靈的兩位老師吃飯,我甚至瞭解到因爲推薦引擎以及機器學習領域的日漸火爆,圖靈出的線性代數最近銷量都很好,更別提大家現在到處都可以看到這個領域相關的招聘。我最近的創業項目iApp4Me其實也是一個推薦引擎的應用,我關注這個領域有很長一段時間了。這個領域還很新,還有很多未知的可能性,非常有意思。
不過在我關注的過程中,我發現很多人其實對什麼是推薦引擎一知半解,這有點像5-6年前的技術界對搜索引擎的理解一樣,那時候有人曾在CSDN言之鑿鑿的說Google其實用的就是Mysql無非是服務器多,而且管理員水平高而已。雖然大多數的高校的計算機專業都有信息檢索課程,但是很多甚至是名校的畢業生也說不清楚搜索引擎是怎麼回事兒。
事實上技術界開始對搜索引擎技術大規模的掃盲是從lucene這個開源軟件的出現以後開始的,在這個問題上某Cutting同學居功至偉。後來也是在他組織下Lucene項目組開發孵化出來了Google的MapRuduce架構的開源實現Hadoop。在Yahoo、在阿里巴巴以及全世界很多公司和組織中Hadoop都起到了很大的作用。後來,lucene項目組還孵化了Mahout,一個基於Hadoop和Lucene的機器學習、推薦引擎項目。現在推薦引擎的實踐中,這個Mahout這個項目也起到了很大的作用。值得推薦的相關開源項目還有weka,Javaml,numpy等。
當然光有這些開源項目也是不夠的,如果你完全不理解推薦引擎的理論,你也很難玩轉它。今天我發現了IBM開發者社區近期出現了一組文章《探索推薦引擎的祕密》,寫的很好,可以算作非常好的這個領域的綜述的文章,非常適合給不瞭解或者一知半解的人建立概念,所以在這裏推薦給大家。
轉載:http://tiny4.org/blog/2011/05/recommend-enginee/