怎麼解決推薦系統中的冷啓動問題

1、冷啓動問題定義

推薦系統需要根據用戶的歷史行爲和興趣預測用戶未來的行爲和興趣,對於BAT這類大公司來說,它們已經積累了大量的用戶數據,不發愁。但是對於很多做純粹推薦系統的網站或者很多在開始階段就希望有個性化推薦應用的網站來說,如何對用戶一無所知(即沒有用戶行爲數據)的情況下進行最有效的推薦呢?這就衍生了冷啓動問題。

 

2.冷啓動的分類

冷啓動問題主要分爲3類:

用戶冷啓動,即如何給新用戶做個性化推薦

物品冷啓動,即如何將新的物品推薦給可能對它感興趣的用戶

系統冷啓動,即如何在一個新開發的網站(沒有用戶、沒有用戶行爲、只有部分物品信息)上設計個性化推薦系統,從而在網站剛發佈時就讓用戶體會到個性化推薦

 

3.冷啓動問題的解決方案

3.1 提供非個性化的推薦

最簡單的例子就是提供熱門排行榜,可以給用戶推薦熱門排行榜,等到用戶數據收集到一定的時候,再切換爲個性化推薦

關於熱門排行榜解決推薦問題的理論測試,可以參考着篇文章 Performance of recommender algorithms on top-n recommendation tasks.並且Netflix的研究也表明新用戶在冷啓動階段確實是更傾向於熱門排行榜的,老用戶會更加需要長尾推薦

 

3.2 利用用戶註冊信息

用戶的註冊信息主要分爲3種:

1)人口統計學信息,包括年齡、性別、職業、民族、學歷和居住地

2)用戶興趣的描述,部分網站會讓用戶用文字來描述興趣

3)從其他網站導入用戶站外行爲,比如用戶利用社交網站帳號登陸,就可以在獲得用戶授權的情況下導入用戶在該社交網站的部分行爲數據和社交網站數據

這種個性化的粒度很粗,假設性別作爲一個粒度來推薦,那麼所有剛註冊的女性看到的都是同樣的結果,但是相對於男女不區分的方式,這種推薦精度已經大大提高了。

 

推薦流程基本如下:
1、獲取用戶的註冊信息

2、根據用戶的註冊信息對用戶將分類

3、給用戶推薦他所屬分類中用戶喜歡的物品

 

下面便是一個利用用戶的註冊信息進行推薦的例子:

3.3 選擇合適的物品啓動用戶的興趣

用戶在登陸時對一些物品進行反饋,收集用戶對這些物品的興趣信息,然後給用戶推薦那些和這些物品相似的物品。

一般來說,能夠用來啓動用戶興趣的物品需要具有以下特點:

1.比較熱門,如果要讓用戶對物品進行反饋,前提是用戶得知道這是什麼東西;

2.具有代表性和區分性,啓動用戶興趣的物品不能是大衆化或老少咸宜的,因爲這樣的物品對用戶的興趣沒有區分性;

3.啓動物品集合需要有多樣性,在冷啓動時,我們不知道用戶的興趣,而用戶興趣的可能興趣的可能性非常多,爲了匹配多樣性的興趣,我們需要提供具有很高覆蓋率的啓動物品集合,這些物品能覆蓋幾乎所有主流的用戶興趣。

 

3.4 利用物品的內容信息

用來解決物品的冷啓動問題,即如何將新的物品推薦給對它感興趣的用戶。物品冷啓動問題在新聞網站等時效性很強的網站中非常重要,因爲這些網站時時刻刻都有新物品加入,而且每個物品必須能夠再第一時間展現給用戶,否則經過一段時間後,物品的價值就大大降低了。

針對協同過濾的倆種推薦算法——userCF算法、itemCF算法來分別瞭解一下物品冷啓動的問題

 

userCF算法

針對推薦列表並不是給用戶展示內容的唯一列表(大多網站都是這樣的)的網站

當新用戶加入時,總會有用戶通過某種途徑看到,那麼當一個用戶對其產生反饋後,和他歷史興趣相似的用戶的推薦列表中就有可能出現該物品,從而更多的人對該物品做出反饋,導致更多的人的推薦列表中出現該物品。因此,該物品就能不斷擴散開來,從而逐步展示到對它感興趣用戶的推薦列表中。

 

針對推薦列表是用戶獲取信息的主要途徑(例如豆瓣網絡電臺)的網站

userCF算法就需要解決第一推動力的問題,即第一個用戶從哪兒發現新物品。最簡單的方法是將新的物品隨機展示給用戶,但是太不個性化。因此可以考慮利用物品的內容信息,將新物品先投放給曾經喜歡過和它內容相似的其他物品的用戶。

 

itemCF算法

對itemCF算法來說,物品冷啓動就是很嚴重的問題了。因爲該算法的基礎是通過用戶對物品產生的行爲來計算物品之間的相似度當新物品還未展示給用戶時,用戶就無法產生行爲。爲此,只能利用物品的內容信息計算物品的相關程度。基本思路就是將物品轉換爲關鍵詞向量,通過計算向量之間的相似度(例如計算餘玹相似度),得到物品的相關程度

3.5 採用專家標註

很多系統在建立的時候,既沒有用戶的行爲數據,也沒有充足的物品內容信息來計算物品相似度。這種情況下,很多系統都利用專家進行標註。代表系統:個性化網絡電臺Pandora、電影推薦網站Jinni

以Pandora電臺爲例,Pandora僱傭了一批音樂人對幾萬名歌手的歌曲進行各個維度的標註,最終選定了400多個特徵。每首歌都可以標識一個400維的向量,然後通過常見的向量相似度算法計算歌曲的相似度。

 

以上均爲項亮一書《推薦系統實戰》中描述到的方法,下面再介紹倆種方法。

3.6 利用用戶在其他地方已經沉澱的數據進行冷啓動

以QQ音樂舉例:

QQ音樂的猜你喜歡電臺想要去猜測第一次使用QQ音樂的用戶的口味偏好,一大優勢是可以利用其他其他騰訊平臺的數據,比如在QQ空間關注了誰,在騰訊微博關注了誰,更進一步,比如在騰訊視頻剛剛看了一部動漫,那麼如果QQ音樂推薦了這部動漫裏的歌曲,用戶會覺得很人性化。這就是利用用戶在其他平臺已有的數據。

再比如今日頭條:

它是在用戶通過新浪微博等社交網站登錄之後,獲取用戶的關注列表,並且爬取用戶最近參與互動的feed(轉發/評論等),對其進行語義分析,從而獲取用戶的偏好。

 

所以這種方法的前提是,引導用戶通過社交網絡帳號登陸,這樣一方面可以降低註冊成本提高轉換率;另一方面可以獲取用戶的社交網絡信息,解決冷啓動問題。

 

3.7 利用用戶的手機等興趣偏好進行冷啓動

Android手機開放的比較高,所以在安裝自己的app時,就可以順路瞭解下手機上還安裝了什麼其他的app.比如一個用戶安裝了美麗說、蘑菇街、辣媽幫、大姨媽等應用,就可以判定這是女性了,更進一步還可以判定是備孕還是少女。

目前讀取用戶安裝的應用這部分功能除了app應用商店之外,一些新聞類、視頻類的應用也在做,對於解決冷啓動問題有很好的幫助。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章