一篇讓人臉紅的python數據分析

正好我最近在找項目練手,於是我決定研究亞馬遜上Top100的細分品類——女式情趣內衣的銷售情況。

 

我的分析分爲核心的三步:

第一步,爬取商品排名和詳情頁鏈接,需要的字段爲:排名、商品名、詳情頁鏈接

第二步,爬取商品詳情,需要的信息爲:

  • 店家:這不就是競爭對手嗎?分析其爆品情況,保留店家鏈接,後續可針對性挖掘分析
  • 價格:分析爆品價格區間,對商品定價、切分市場有幫助
  • 上架時間:新品?爆了多久?
  • 星級、評論數、評論標籤、所有評論鏈接:進一步爬取評論內容,來分析爆品的優劣勢
  • 尺寸、顏色:也是非常有價值的參考數據,但在實際爬取過程中遇到問題,後面會提到
  • 圖片鏈接:難道你不想看看商品長啥樣嗎?

第三步,數據轉化爲可視化圖表,並做分析。

是不是迫不及待想要看過程了,來吧~

如何爬取內衣數據

爬取過程分爲三步,完整代碼見文末,不用謝。

1、爬取商品排名和詳情頁鏈接

 

需要爬取的具體字段:排名(Rank),商品名(item_name),商品詳情頁鏈接(item_link)、商品圖片鏈接(img_src)

2、在商品詳情頁爬取更多商品信息

店家名、店家鏈接、商品名、價格

星級、評論標籤

核心事項:

1)構建函數來獲取單個商品的詳細信息;

2)利用for循環,遍歷商品詳情頁鏈接列表,來獲取每個商品的詳細信息

3、爬取評論

評論內容,星級

核心事項:

1)從上一步的csv文件中,讀取Rank , item_name , reviews , reviews_link字段

2)構建函數讀取每個商品的所有評論

3)利用for循環,獲取所有商品的所有評論

4)存儲到數據庫和csv文件中

4、爬取size和color數據

和第三步基本一樣,代碼基本一樣,主要在於要確認每頁評論的size&color個數。

Python學習羣:692649595,有大牛答疑,有資源共享!是一個非常不錯的交流基地!歡迎喜歡Python的小夥伴!

數據清洗與預處理

1、讀取、清洗數據

從csv文件讀取100個商品的數據,篩選出所需要的字段,進行數據清洗

  • 部分讀取的數據,看似是數值,實際是字符,因此需要進行類型轉換(如price拆分後,還需要轉爲float型)
  • 需要參與數值計算的NaN,使用平均值進行替換

 

2、以商家維度處理數據

獲取所需的數據:商家的星級、評論數總和、評論數均值、最低價均值、最高價均值、價格均值、商品數量、佔比。針對星級、評論數均值、價格均值、商品數量做標準化處理,並計算加權分。

 

歪果情趣內衣哪家強?

① 不同商家的星級排名

 

平均星級達4.15分,高於平均分的商家超過一半(17/32)

Top1的LALAVAVA高達4.9分,緊隨其後也有5家達到4.5分。

倒數第一N-pearI只有3.2分

讓我看看LALAVAVA長什麼樣。亞馬遜上的商品,看上去就是普通泳衣,米國人還是很保守的嘛~

 

但評分高真的就說明產品好嗎?不如來看看評論數吧——

②不同商家的平均評論數排名

 

首先平均評論數只有193條,而且高於平均線的只有不到三成(12/32),想想淘寶動輒上萬,我們的人口優勢讓米國人羨慕呀;

  • 再來看星級Top1的LALAVAVA,評論數少得可憐,那麼對其商品真實質量就要存疑了;
  • 而星級倒數的N-pear I,同樣評論數很少,那大概率其商品其實不咋地;
  • 反觀評論數Top1的Garmol,其星級評價4.4,口碑佳評論也多,看來是不錯的商品;
  • 緊隨其後的幾家,其星級分數就低於平均分了

那麼,亞馬遜的星級評價難道就只受評論數的幾顆星比例影響嗎?我查閱了網上的一些資料,發現亞馬遜評價星級評定的三個重要因素:評論距離現在的時間,評論被買家投票採納數,評論是否有verified purchase標誌(意指真實買家)。此外,評論的字符數,被點擊次數等因素也可能會對評論星級有影響。

看來,亞馬遜對評論的監控和管理是非常嚴格而複雜的!當然,最重要的還是看看評論第一名的Garmol長什麼樣:

 

比上邊的泳衣更點題了,大家說好纔是真的好,very sexy!

 

③不同商家的價格區間排名(按均價)

 

從圖上來看,明顯ELOVER鎖定的是高端市場,定價區間在49刀左右;相反,Goddessvan定價僅0.39刀,還只有一款,猜測可能是虧本衝量,提高商家曝光,搶奪低端市場

從均價來看,基本分佈在10-20刀間,說明這是情趣內衣市場的主要價格區間;但20-40刀區間居然沒有任何商家,可以在這一塊深入研究,看能不能找到證據說明該區間是藍海,有更大的市場潛力

而從每個商家的價格區間來看,大多數都是採取多顏色或款式的策略,一方面爲用戶提供更多選擇,另一方面也體現了商家的上新能力;而僅有少數幾家採取了單一爆款的策略

最奢華的ELOVER看上去果然比較女神,縮略圖都比別家更用心。

 

那麼,到底哪個商家的策略更靠譜,市場份額更大呢?

④商家的商品數量餅圖

 

在Top100的商品佔比中,Avidlove以28%的巨大優勢稱霸

而其他商家基本都是個位數的佔比,沒有很明顯的優劣勢

Avidlove的內衣是酷酷風的,我喜歡。

 

單一方面畢竟還是很難衡量哪家商家更優秀,不如綜合多個指標來分析吧~

⑤不同商家的加權分排名

 

將星級、平均評論數、商品均價、商品數量進行標準化處理後,因爲不好拍定加權的比例,便將4項的歸一化結果x10後直接累加得到總分,並製作成堆積圖。

Python學習羣:692649595,有大牛答疑,有資源共享!是一個非常不錯的交流基地!歡迎喜歡Python的小夥伴!

而每個商家的4項指標的佔比,則側面反映其自身的優劣勢。

  • Avidlove,剛剛的酷酷風內衣,在其他三項中規中矩的情況下,以商品數量優勢奪得綜合分第一,有種農村包圍城市的感覺
  • Garmol,主要依靠口碑(星級、平均評論數)的優勢,奪得了第二名
  • ELOVER,主要依靠精準切分高端市場,奪得了第三名
  • N-pearI,沒有任何優勢,不出意料的光榮墊底

口碑最差的N-pearI,能搜到的商品也最少,不過圖很勁爆……

 

粗略來看的話,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!

⑥不同商家的星級/價格散點圖

 

x軸爲商家的商品均價,y軸爲商家的星級,點大小爲商品數量,商品數量越大,點越大,點顏色爲評論均值,評論均值越大,顏色越深紅。

利用價格均值和星級均值,將圖切分爲四個象限:

①左上象限:實惠好評的商家

②右上象限:有點貴,但一分錢一分貨的商家

③右下象限:貴,但質量不咋地的商家

④左下象限:便宜沒好貨的商家

所以藉助這張散點圖,挑商家買東西就容易多啦:

  • 追求性價比,可選擇Avidlove,而且商品多,任君挑選 (圖中圓圈最大的淺紅色商家);
  • 追求高端,可選擇ELOVER,它貴有它的道理 (圖中最左側且落在左上象限的商家);
  • 追求大衆,可選擇Garmol,評論數最多,而且好評居多 (圖中顏色最紅的商家)

顧客可以根據自己的喜好挑選合適的商家,那麼作爲商家如何改進自己呢?

⑦詞頻分析

 

前面在爬取的過程中,同樣爬取了評論標籤,通過對此進行詞頻分析,可以發現顧客最關心的依次是:

1.是否合身:size、fit等相關字眼多次出現且排位靠前

2.質量:good quality、well made;soft and comfortable、fabric是對材質的肯定

3.款式:cute、sexy、like the picture你懂的

4.價格:cheaply made勉強算價格吧,但更多是對商品質量的懷疑

5.口碑:highly recommend,評論的還是非常有參考價值的

評論標籤的數量較少,進一步對2.4w條評論進行詞頻分析,並製作成詞雲:

 

快誇我底圖選得好!

最直觀的,仍然是跟“是否合身”以及質量或款式有關。那麼我們就從顧客購買商品的Size&Color繼續分析

Size&Color的詞頻數據存在幾點問題:1、數據量較少,僅有約6000條2、Size&Color無法較好的區分開,因此一起分析3、商家的命名規則不同,比如同樣是黑色款,有個商家會命名black,而有的可能是style1(所以一些奇怪的數字編號其實是商家的款式編號)4、有些奇怪的字眼如trim可能是爬蟲時爬錯了或者導出csv時的格式錯亂

 

可以明顯看出:

Size方面:large、medium、small肯定均有涵蓋,但另外還有xlarge、xxlarge、xxxlarge,亞馬遜主要是歐美顧客,可能體型相對較大,所以商家應該多研發以及備貨針對體型較大的顧客的商品。

Color方面:非常直觀:Black > red > blue > green > white > purple....所以黑色、紅色永遠不會錯;綠色是出乎我意料的,商家也可以大膽嘗試。

Style方面:詞頻中出現trim、lace字眼,蕾絲最高!!!

總結

在分析了Top100的商品信息和2.4w條評論後,作爲一篇正經的python數據分析研究,我們來總結一下亞馬遜情趣內衣產品和銷售策略:

1、一定要注意的競品

Garmol、ELOVER、Avidlove分別在口碑、定價、產品數量三個方向有其核心優勢,是需要重點研究的競爭對手。

2、口碑很重要

  • Review和星級是影響口碑的重要因素,需要深入研究其算法機制並制定針對性的營銷策略
  • Review和星級有基礎要求
  • 平均星級達4.15分,高於平均分的商家超過一半
  • 平均評論數只有193條,高於平均線的商家約三成
  • Review相對淘寶評論較少,亞馬遜的算法複雜且懲罰力度大,因此Review重精勝於重多

3、定價策略

  • 主流市場競爭激烈,價格多集中在10-20刀間
  • 高端市場有切入機會,目前僅ELOVER一家,價格在40-55刀間
  • 低端市場價值不大,利潤空間小,爲了提高曝光或鋪量可考慮,但不利於以後衝擊中高端市場
  • 中高端市場機會巨大,20-40刀區間暫無其他商家,有巨大的市場潛力

4、產品策略

  • 應結合目標市場和定價,提高研發和上新能力,先多產品試錯,再嘗試單一爆款鞏固市場
  • 內衣尺寸:合身最重要,需貼合國外顧客的體型,一般large及以上。顏色上:保守可多使用黑色、紅色,同時可大膽嘗試綠色。款式上:多采用蕾絲裝飾
  • 質量和品控是底線

5、拓展&思考:

  • 亞馬遜Best Sellers是每小時更新一次,理論上可以每一小時爬一次,看商品的排名變化,是否有新品等 ,可以嘗試自動化爬蟲;
  • 針對上一點,但商品的評論內容並不是經常更新的,如何去重避免重複爬取?(類似於斷點續傳功能);
  • 此次也有爬取商品圖片的鏈接,可全部下載;在積累一定的圖片素材以後,就可以一定程度上看出顏色、甚至是款式的趨勢。

 Python學習羣:692649595,有大牛答疑,有資源共享!是一個非常不錯的交流基地!歡迎喜歡Python的小夥伴!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章