推薦算法是推薦系統的核心,但爲了產生精確而且有效的推薦,越來越多的技術融合到推薦系統的研究中,然後提出各種不同的推薦算法。目前在推薦系統中應用的核心技術包括:
(1)信息檢索技術(IR)
推薦系統根據用戶需求,搜索產品類別數據庫,然後返回用戶需要的信息,其搜索過程可以實時進行,也可以定期執行,同時推薦系統提供的推薦界面既可以基於傳統的關鍵字查詢,也可以基於動態查詢接口。
(2)信息過濾技術(IF)
信息過濾技術一般適合於用戶需求相對不變,而信息動態更新比較頻繁地情況。(比如:指閱,閱米,牛贊網)
信息過濾與信息檢索的主要區別在於:
- 信息過濾面向用戶長期的信息需求,而信息檢索技術面向的是用戶短期的、實時的信息查詢。
- 信息過濾使用特徵文件表示用戶的信息需求特點,而信息檢索技術是用關鍵詞表達用戶的查詢需求。
- 信息過濾中用戶需求相對不變,但用戶訪問的是動態數據流,是從動態數據流中選擇數據;而信息檢索技術訪問的是相對靜止的數據,但用戶需求卻具有瞬時性。
- 分類:將數據劃分爲實現定義好的類別中去。
- 迴歸:將數據項映射到若干預定義好的變量上去。
- 聚類:將數據劃分到幾個聚類中去。
- 概括:爲數據的一個子集給出一個簡潔的描述。
- 依賴性模型:描述變量之間的相互依賴性。
- 鏈接分析:判斷數據庫或者數據倉庫中字段之間存在的關係,比如:關聯規則。
- 序列分析:構造順序模型,發現數據之間在時間上的相關性。
- 統計分析:利用統計學和概率論對關係中各個屬性進行統計分析,找出它們之間存在的關聯。
- 神經網絡:模仿生物神經網絡,通過訓練進行學習的非線性預測模型,可以完成分類、聚類等多種任務。
- 決策樹:用樹形結果表示決策集合,決策集合通過對數據集分析產生典型的決策樹方法。
- 遺傳算法:運用基於生物進化的概念設計有了一系列過程來達到優化的目的,包括基因組合、分叉、變異和自然選擇。
- 粗糙集:一種處理模糊和不確定性問題的數學工具,可以用於數據簡化、關聯規則挖掘。
- 模糊邏輯:可以用來進行證據合成、置信度計算。
- 最近鄰技術:通過k個最相似的歷史記錄的組合來辨別新的記錄,用來聚類分析、偏差分析。
- 規則歸納:通過統計方法歸納,提取有價值的if-else規則,可用於關聯規則挖掘。
- 可視化:採取直觀的圖形方式將信息模型、數據關聯或者趨勢呈獻給決策者。