阿里巴巴移動推薦算法離線賽(一)數據初步分析

阿里巴巴移動推薦算法離線賽(一)數據初步分析

詳細的學習了該篇https://blog.csdn.net/Snoopy_Yuan/article/details/72454636,自己也分享一次

1 題目分析

移動推薦算法賽題如下:

根據阿里巴巴平臺上20000名用戶於2014.11.18—2014.12.18時間段的某一時刻(精確到小時)對商品總體的行爲數據(有四種行爲:點擊、收藏、加購物車、購買),構建一個模型預測2014.12.19日用戶對商品子集的購買行爲。數據採用CSV格式文件給出,如圖1-1所示。結果評分採用準確率於召回率來計算,如圖1-2所示。

 

                                                            圖1-1 數據

                                                             圖1-2 評分公式

由於賽題暗示的原因認爲是要做推薦算法,但是比較了推薦算法和本賽題之後發現本賽題於推薦算法幾乎沒有關係。因爲推薦算法的核心思想在於推薦用戶可能會購買但他們自身並未發現的商品,而本賽題的核心在於從用戶已經發現的商品裏找到用戶會在某天會購買的商品,這兩者之間區別很大。

經過思考發現本賽題可以構建爲一個二分類問題:將用戶集合與商品集合組成用戶商品對,然後構建模型對這些UI對分類到購買或不購買這兩類。

2 初步數據分析

之所以需要這一步是因爲需要對數據有一個初步的認識,初步觀察出是否存在什麼規律或者異常。

第一是使用python對20000名用戶的在一個月的總行爲數做一個統計。統計結果如圖2-1與圖2-2所示,其中圖2-1橫座標爲用戶標籤,縱座標爲用戶數量,圖2-2橫座標爲行爲數量,縱座標爲行爲數量區間的用戶數量。兩圖從不同方面反映了用戶行爲數量的特性。可以發現大部分用戶行爲數量都在3000以下,但是也存在用戶行爲數量超過20000的,這部分必然不是正常用戶。

                                                                                     圖2-1 用戶行爲數量

                                                                                 圖2-2 用戶行爲數量分佈

第二是一個月期間的商品全集與商品子集每天總行爲數量的變化情況,統計結果如圖2-3與2-4所示。可以發現商品全集與商品子集的數據有一定差異,而行爲數量以周爲單位週期性變化,每週五行爲數量最少,週日行爲數量最多,但是因爲雙12購物節導致2014.12.12附近的數據異常。

                                                                   圖2-3 商品全集一個月期間的每天總行爲數量

                                                                  圖2-4 商品子集一個月期間的每天總行爲數量

第三是統計每天24小時的用戶行爲數量變化情況,這裏採用2014-12-17到2014-12-18兩天的數據進行統計,結果如圖2-5與2-6所示。可以發現四種行爲數量均隨着時間的推移週期性變化,週期爲一天,而且圖像一定程度上反映了人們休閒娛樂的時間規律。

                                                                    圖2-5 兩日內各行爲數量隨時間變化情況

                                                              圖2-6 兩日內加購物車行爲數量隨時間變化情況

第四是統計用戶行爲的轉化率,觀察行爲之間的關聯。根據統計,點擊後會購買的比率非常低;加購物車後會購買的比例爲0.3;收藏後會購買的比例爲0.65;被購買的商品其中0.87都曾經被加入購物車;被購買的商品其中0.12都曾經被收藏。顯然加入購物車這一行爲與購買具有極強的聯繫。

第五是統計購買與其他行爲之間的時間差,因爲題目中體現了時間差因素特別重要。統計結果如圖2-7與圖2-6所示。由此可以發現加入購物車或者收藏後時間越久購買的可能性越低。且如果商品被加入購物車,大部分購買都在加入購物車8小時內。

                                                                    圖2-7 behavior3 to behavior4 time interval

                                                         圖2-8 behavior2 to behavior4 time interval

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章