Python:我的交易行爲終於在分析1225萬條淘寶數據,搞清楚了

1、項目背景與分析說明

1)項目背景

網購已經成爲人們生活不可或缺的一部分,本次項目基於淘寶app平臺數據,通過相關指標對用戶行爲進行分析,從而探索用戶相關行爲模式。

2)數據和字段說明

本文使用的數據集包含了2014.11.18到2014.12.18之間,淘寶App移動端一個月內的用戶行爲數據。該數據有12256906天記錄,共6列數據。

  • user_id:用戶身份
  • item_id:商品id
  • behavior_type:用戶行爲類型(包括點擊、收藏、加入購物車、支付四種行爲,分別用數字1、2、3、4表示)
  • user_geohash:地理位置
  • item_category:品類id(商品所屬的分類)
  • time:用戶行爲發生的時間

3)分析的維度

  • 流量指標分析
  • 用戶行爲分析
  • 漏斗流失分析
  • 用戶價值RFM分析

4)電商常用分析方法

5)什麼是漏斗分析?

“漏斗分析”是一套流程式數據分析,它能夠科學反映用戶行爲狀態,以及從起點到終點各階段用戶轉化率情況的一種重要分析模型。

2、導入相關庫

import numpy as np 
import pandas as pd 
import matplotlib as  mpl 
import matplotlib.pyplot as  plt 
import seaborn as sns 
import warnings 
# 設置爲seaborn繪圖風格 
sns.set(style="darkgrid",font_scale=1.5) 
 
# 用來顯示中文標籤 
mpl.rcParams["font.family"] = "SimHei" 
 
# 用來顯示負號 
mpl.rcParams["axes.unicode_minus"] = False 
 
# 有時候運行代碼時會有很多warning輸出,像提醒新版本之類的,如果不想這些亂糟糟的輸出,可以使用如下代碼 
warnings.filterwarnings('ignore') 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

3、數據預覽、數據預處理

# 注意:str是爲了將所有的字段都讀成字符串 
df = pd.read_csv("taobao.csv",dtype=str) 
df.shape 
df.info() 
df.sample(5) 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

1)計算缺失率

# 由於地理位置的缺失值太多,我們也沒辦法填充,因此先刪除這一列 
df.apply(lambda x:sum(x.isnull())/len(x),axis=0) 

結果如下:

2)刪除地理位置這一列

df.drop(["user_geohash"],axis=1,inplace=True) 

3)處理時間time列,將該列拆分爲date日期列,和hour小時列

df["date"] = df.time.str[0:-3] 
df["hour"] = df.time.str[-2:] 
df.sample(5) 

結果如下:

4)將time、date列都變爲標準日期格式,將hour列變爲int格式

df["date"] = pd.to_datetime(df["date"]) 
df["time"] = pd.to_datetime(df["time"]) 
df["hour"] = df["hour"].astype(int) 
df.dtypes 

結果如下:

5)將數據按照time列,升序排列

df.sort_values(by="time",ascending=True,inplace=True) 
df.head() 

解果如下:

6)刪除原始索引,重新生成新的索引

df.reset_index(drop=True,inplace=True) 
df.head() 

結果如下:

知識點:注意reset_index()中傳入參數drop的這種用法。

7)使用describe()函數查看數據的分佈,這裏使用了一個include參數,注意一下

# 查看所有object字符串類型的數據分佈狀況 
df.describe(include=["object"]) 
# describe()默認只會統計數值型變量的數據分佈情況。 
df.describe() 
# 查看所有數據類型的數據分佈狀況 
df.describe(include="all") 

結果如下:

知識點:注意describe()函數中傳入參數include的用法。

8)對時間數據做一個概覽

df["date"].unique() 

結果如下:

4、模型構建

1)流量指標的處理

  • pv:指的是頁面總瀏覽量。每個用戶每刷新一次網頁,就會增加一次pv。
  • uv:指的是獨立訪客數。一臺電腦一個ip也就是一個獨立訪客。實際分析中,我們都是認爲每個人只使用一臺電腦,即每一個獨立訪客代表一個用戶。

① 總計pv和uv

total_pv = df["user_id"].count() 
total_pv 
total_uv = df["user_id"].nunique() 
total_uv 

結果如下:

結果分析:從圖中可以看到,該網站頁面的總瀏覽量爲12256906次,該頁面的獨立訪客數共有10000個。

② 日期維度下的uv和pv:uv表示頁面總瀏覽量,pv表示獨立訪客數

pv_daily = df.groupby("date")['user_id'].count() 
pv_daily.head(5) 
uv_daily = df.groupby("date")['user_id'].apply(lambda x: x.nunique()) 
# uv_daily = df.groupby("date")['user_id'].apply(lambda x: x.drop_duplicates().count()) 
uv_daily.head() 
pv_uv_daily = pd.concat([pv_daily,uv_daily],axis=1) 
pv_uv_daily.columns = ["pv","uv"] 
pv_uv_daily.head() 
# 繪圖代碼如下 
plt.figure(figsize=(16,10)) 
plt.subplot(211) 
plt.plot(pv_daily,c="r") 
plt.title("每天頁面的總訪問量(PV)") 
plt.subplot(212) 
plt.plot(uv_daily,c="g") 
plt.title("每天頁面的獨立訪客數(UV)") 
#plt.suptitle("PV和UV的變化趨勢") 
plt.tight_layout() 
plt.savefig("PV和UV的變化趨勢",dpi=300) 
plt.show() 

結果如下:

繪圖如下:

結果分析:從圖中可以看出,pv和uv數據呈現高度的正相關。雙12前後,pv和uv都在350000-400000之間波動,雙十二的時候,頁面訪問量急劇上升,證明這次活動的效果很好。

③ 時間維度下的pv和uv

pv_hour = df.groupby("hour")['user_id'].count() 
pv_hour.head() 
uv_hour = df.groupby("hour")['user_id'].apply(lambda x: x.nunique()) 
uv_hour.head() 
pv_uv_hour = pd.concat([pv_hour,uv_hour],axis=1) 
pv_uv_hour.columns = ["pv_hour","uv_hour"] 
pv_uv_hour.head() 
# 繪圖代碼如下 
plt.figure(figsize=(16,10)) 
pv_uv_hour["pv_hour"].plot(c="steelblue",label="每個小時的頁面總訪問量") 
plt.ylabel("頁面訪問量") 
 
pv_uv_hour["uv_hour"].plot(c="red",label="每個小時的頁面獨立訪客數",secondary_y=True) 
plt.ylabel("頁面獨立訪客數") 
plt.xticks(range(0,24),pv_uv_hour.index) 
 
plt.legend(loc="best") 
plt.grid(True) 
 
plt.tight_layout() 
plt.savefig("每個小時的PV和UV的變化趨勢",dpi=300) 
plt.show() 

結果如下:

繪圖如下:

結果分析:從圖中可以看出,晚上22:00-凌晨5:00,頁面的訪問用戶數量和訪問量逐漸降低,該時間段很多人都是處在休息之中。而從早上6:00-10:00用戶數量逐漸呈現上升趨勢,10:00-18:00有一個比較平穩的狀態,這個時間段是正常的上班時間。但是18:00以後,一直到晚上22:00,用戶劇烈激增,一直達到一天中訪問用戶數的最大值。運營人員可以參考用戶的活躍時間段,採取一些促銷活動。

2)用戶行爲指標

① 總計點擊、收藏、添加購物車、支付用戶的情況

type_1 = df[df['behavior_type']=="1"]["user_id"].count() 
type_2 = df[df['behavior_type']=="2"]["user_id"].count() 
type_3 = df[df['behavior_type']=="3"]["user_id"].count() 
type_4 = df[df['behavior_type']=="4"]["user_id"].count() 
print("點擊用戶:",type_1) 
print("收藏用戶:",type_2) 
print("添加購物車用戶:",type_3) 
print("支付用戶:",type_4) 

結果如下:

結果分析:從圖中可以看到,用戶進行頁面點擊–>收藏和加如購物車–>支付,逐漸呈現下降趨勢。關於這方面的分析,將在下面的漏斗圖中繼續更爲深入的說明。

② 日期維度下,點擊、收藏、添加購物車、支付用戶的情況

pv_date_type = pd.pivot_table(df,index='date', 
                             columns='behavior_type', 
                             values='user_id', 
                             aggfunc=np.size) 
pv_date_type.columns = ["點擊","收藏","加入購物車","支付"] 
pv_date_type.head() 
# 繪圖如下 
plt.figure(figsize=(16,10)) 
sns.lineplot(data=pv_date_type[['收藏', '加入購物車', '支付']]) 
 
plt.tight_layout() 
plt.savefig("不同日期不同用戶行爲的PV變化趨勢",dpi=300) 
plt.show() 

結果如下:

繪圖如下:

③ 時間維度下,點擊、收藏、添加購物車、支付用戶的情況

pv_hour_type = pd.pivot_table(df,index='hour', 
                             columns='behavior_type', 
                             values='user_id', 
                             aggfunc=np.size) 
pv_hour_type.columns = ["點擊","收藏","加入購物車","支付"] 
pv_hour_type.head() 
# 繪圖如下 
plt.figure(figsize=(16,10)) 
sns.lineplot(data=pv_hour_type[['收藏', '加入購物車', '支付']]) 
 
pv_hour_type["點擊"].plot(c="pink",linewidth=5,label="點擊",secondary_y=True) 
plt.legend(loc="best") 
 
plt.tight_layout() 
plt.savefig("不同小時不同用戶行爲的PV變化趨勢",dpi=300) 
plt.show() 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

繪圖如下:

④ 支付次數前10的用戶行爲細分

df["user_id1"] = df["user_id"] 
buy_first = pd.pivot_table(df,index='user_id', 
                             columns='behavior_type', 
                             values='user_id1', 
                             aggfunc="count") 
buy_first.columns = ["點擊","收藏","加入購物車","支付"] 
buy_first_10 = buy_first.sort_values(by="支付",ascending=False)[:10] 
buy_first_10 
# 繪製圖形如下 
plt.figure(figsize=(16,10)) 
plt.subplot(311) 
plt.plot(buy_first_10["點擊"],c="r") 
plt.title("點擊數的變化趨勢") 
plt.subplot(312) 
plt.plot(buy_first_10["收藏"],c="g") 
plt.title("收藏數的變化趨勢") 
plt.subplot(313) 
plt.plot(buy_first_10["加入購物車"],c="b") 
plt.title("加入購物車的變化趨勢") 
 
plt.xticks(np.arange(10),buy_first_10.index) 
 
plt.tight_layout() 
plt.savefig("支付數前10的用戶,在點擊、收藏、加入購物車的變化趨勢",dpi=300) 
plt.show() 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

繪圖如下:

結果分析:通過這個分析,我們可以看出,購買次數最多的用戶,點擊、收藏、加入購車的次數不一定是最多的,

⑤ ARPPU分析:平均每用戶收入,即可通過“總收入/AU” 計算得出

total_custome = df[df['behavior_type'] == "4"].groupby(["date","user_id"])["behavior_type"].count()\ 
                .reset_index().rename(columns={"behavior_type":"total"}) 
total_custome.head() 
total_custome2 = total_custome.groupby("date").sum()["total"]/\ 
                 total_custome.groupby("date").count()["total"] 
total_custome2.head(10) 
# 繪圖如下 
x = len(total_custome2.index.astype(str)) 
y = total_custome2.index.astype(str) 
 
plt.plot(total_custome2.values) 
plt.xticks(range(0,30,7),[y[i] for i in range(0,x,7)],rotation=90) 
plt.title("每天的人均消費次數") 
 
plt.tight_layout() 
plt.savefig("每天的人均消費次數",dpi=300) 
plt.show() 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

繪圖如下:

⑥ 日ARPU分析:表示的是平均每用戶收入。ARPU = 總收入/AU得到

df["operation"] = 1 
aa = df.groupby(["date","user_id",'behavior_type'])["operation"].count().\ 
     reset_index().rename(columns={"operation":"total"}) 
aa.head(10) 
aa1 = aa.groupby("date").apply(lambda x: x[x["behavior_type"]=="4"]["total"].sum()/x["user_id"].nunique()) 
aa1.head(10) 
# 繪圖如下 
x = len(aa1.index.astype(str)) 
y = aa1.index.astype(str) 
 
plt.plot(aa1.values) 
plt.xticks(range(0,30,7),[y[i] for i in range(0,x,7)],rotation=90) 
plt.title("每天的活躍用戶消費次數") 
 
plt.tight_layout() 
plt.savefig("每天的活躍用戶消費次數",dpi=300) 
plt.show() 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

繪圖如下:

⑦ 付費率PUR = APA/AU,這裏用【消費人數 / 活躍用戶人數】代替

rate = aa.groupby("date").apply(lambda x: x[x["behavior_type"]=="4"]["total"].count()/x["user_id"].nunique()) 
rate.head(10) 
# 繪圖如下 
x = len(rate.index.astype(str)) 
y = rate.index.astype(str) 
 
plt.plot(rate.values) 
plt.xticks(range(0,30,7),[y[i] for i in range(0,x,7)],rotation=90) 
plt.title("付費率分析") 
 
plt.tight_layout() 
plt.savefig("付費率分析",dpi=300) 
plt.show() 
加python學習qq羣:775690737  送python零基礎入門學習資料+99個源碼

結果如下:

⑧ 復購情況分析(復購率)

re_buy = df[df["behavior_type"]=="4"].groupby("user_id")["date"].apply(lambda x: x.nunique()) 
print(len(re_buy)) 
re_buy[re_buy >= 2].count() / re_buy.count() 

結果如下:

3)漏斗分析

df_count = df.groupby("behavior_type").size().reset_index().\ 
           rename(columns={"behavior_type":"環節",0:"人數"}) 
            
type_dict = { 
    "1":"點擊", 
    "2":"收藏", 
    "3":"加入購物車", 
    "4":"支付" 
} 
df_count["環節"] = df_count["環節"].map(type_dict) 
 
a = df_count.iloc[0]["人數"] 
b = df_count.iloc[1]["人數"] 
c = df_count.iloc[2]["人數"] 
d = df_count.iloc[3]["人數"] 
funnel = pd.DataFrame({"環節":["點擊","收藏及加入購物車","支付"],"人數":[a,b+c,d]}) 
 
funnel["總體轉化率"] = [i/funnel["人數"][0] for i in funnel["人數"]] 
funnel["單一轉化率"] = np.array([1.0,2.0,3.0]) 
for i in range(0,len(funnel["人數"])): 
    if i == 0: 
        funnel["單一轉化率"][i] = 1.0 
    else: 
        funnel["單一轉化率"][i] = funnel["人數"][i] / funnel["人數"][i-1] 
# 繪圖如下 
import plotly.express as px 
import plotly.graph_objs as go 
 
trace = go.Funnel( 
    y = ["點擊", "收藏及加入購物車", "購買"], 
    x = [funnel["人數"][0], funnel["人數"][1], funnel["人數"][2]], 
    textinfo = "value+percent initial", 
    marker=dict(color=["deepskyblue", "lightsalmon", "tan"]), 
    connector = {"line": {"color": "royalblue", "dash": "solid", "width": 3}}) 
     
data =[trace] 
 
fig = go.Figure(data) 
 
fig.show() 

結果如下:

繪圖如下:

結果分析:由於收藏和加入購車都是有購買意向的一種用戶行爲,切不分先後順序,因此我們將其合併看作一個階段。從上面的漏斗圖和funnel表可以看出,從瀏覽到具有購買意向(收藏和加入購物車),只有5%的轉化率,但是到了真正到購買的轉化率只有1%,再看“單一轉化率”,從具有購買意向到真正購買的轉化率達到了20%。說明從瀏覽到進行收藏和加入購物車的階段,是指標提升的重要環節。

4)客戶價值分析(RFM分析)

from datetime import datetime 
# 最近一次購買距離現在的天數 
recent_buy = df[df["behavior_type"]=="4"].groupby("user_id")["date"].\ 
             apply(lambda x:datetime(2014,12,20) - x.sort_values().iloc[-1]).reset_index().\ 
             rename(columns={"date":"recent"}) 
recent_buy["recent"] = recent_buy["recent"].apply(lambda x: x.days) 
recent_buy[:10] 
# 購買次數計算 
buy_freq = df[df["behavior_type"]=="4"].groupby("user_id")["date"].count().reset_index().\ 
          rename(columns={"date":"freq"}) 
buy_freq[:10] 
# 將上述兩列數據,合併起來 
rfm = pd.merge(recent_buy,buy_freq,on="user_id") 
rfm[:10] 
# 給不同類型打分 
r_bins = [0,5,10,15,20,50] 
f_bins = [1,30,60,90,120,900] 
rfm["r_score"] = pd.cut(rfm["recent"],bins=r_bins,labels=[5,4,3,2,1],right=False) 
rfm["f_score"] = pd.cut(rfm["freq"],bins=f_bins,labels=[1,2,3,4,5],right=False) 
for i in ["r_score","f_score"]: 
    rfm[i] = rfm[i].astype(float) 
rfm.describe() 
# 比較各分值與各自均值的大小 
rfm["r"] = np.where(rfm["r_score"]>3.943957,"高","低") 
rfm["f"] = np.where(rfm["f_score"]>1.133356,"高","低") 
# 將r和f列的字符串合併起來 
rfm["value"] = rfm["r"].str[:] + rfm["f"].str[:] 
rfm.head() 
# 自定義函數給用戶貼標籤 
def trans_labels(x): 
    if x == "高高": 
        return "重要價值客戶" 
    elif x == "低高": 
        return "重要喚回客戶" 
    elif x == "高低": 
        return "重要深耕客戶" 
    else: 
        return "重要挽回客戶" 
rfm["標籤"] = rfm["value"].apply(trans_labels) 
# 計算出每個標籤的用戶數量 
rfm["標籤"].value_counts() 

結果如下:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章