本週有技術大神在知乎、專業安全網站爆出TX扣扣在偷偷抓取個人瀏覽器瀏覽記錄並上報,一石激起千層浪,迅速成爲圈內熱門話題。博主這裏不敢亂評價(你懂的)。我們從另外一個角度來切入話題。
瀏覽記錄本身是屬於網站行爲數據,對該數據分析也就是網站行爲分析,對於互聯網從業者來說,這是一個必備的技能,之前寫過一遍關於數據分析入門之用戶行爲分析的文章,大家有一定了瞭解。今天藉助這樣一個話題,對自己的瀏覽數據進行分析實踐,希望達到2個目的:
掌握一些數據分析的技能;
對自己過去一段的上網行爲有一個量化的認識。
一 準備數據源
將瀏覽記錄下載到本地,不同的瀏覽器下載方式不同,可能要藉助不同小工具,已谷歌瀏覽器爲例(需要安裝插件Export Chrome History),步驟如下:
- 下載地址: https://chrome.google.com/webstore/detail/export-chrome-history/dihloblpkeiddiaojbagoecedbfpifdj
-
添加至Chrome
-
添加完成之後,點擊右上角時鐘按鈕,下載最近1年或者1周的數據
-
下圖是下載csv數據,大部分可以在Excel中分析
至此數據源準備完畢,開始用Excel進行分析。
二 Excel數據分析
涉及知識點:透視圖、hour、mid、find函數、圖表展示
具體步驟:
1)添加"小時"、"域名"兩個計算列,每個url後續參數較多,去掉參數方便彙總,這個也是用戶行爲分析中非常重要的一步,當然也可以添加其他計算列
"小時"列:hour(d2)
"域名"列:MID(F2,FIND("//",F2)+2,FIND("/",F2,FIND("//",F2)+2)-FIND("//",F2)-2)
2)創建透視圖
3)每日瀏覽量(PV)分析,
可以看出平均每天瀏覽2100個頁面,其中工作日能達到2500個,週末只有900多。
4)每日時段瀏覽記錄分析
可以看出,每天早8點、晚8點瀏覽網頁最多,其次是早9點和晚9點,早上10點這個階段比其他時間少一個量級,猜測一下我在幹嘛呢?
5)網站熱度分析
可以看出知乎和知識星球是真愛啊,知乎所佔比例這麼高自己都不知道。
6)上面幾個分析雖然比較簡單,但是自己之前還真的不知道。大家也可以嘗試其他角度的分析。比如哪個時間段在看什麼網站、自己關注的網站是不是也有時間週期等。
三 詞雲製作
上面進行了簡單的統計分析,但是自己這段時間到底在網上看什麼內容是看不出來的,數據源中還有網頁標題這項數據,這個時候可以藉助詞雲來進行可視化展示。這裏介紹2種方式實現詞雲可視化。
1 Python自己碼代碼,具體步驟如下:
- 安裝Python軟件(建議直接安裝3.0,不要安裝2.7版本了)
- 安裝Python相關包matplotlib、wordcloud、jieba
- 將excel中title列單獨copy一個文本文件中。
- 碼代碼,python是輕量級的,入門相對容易,下面10行即可搞定
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#coding:utf-8
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#讀取文件內容
f_title = open('/Users/haixiao/Downloads/url_titles.txt').read()
#通過jieba進行分詞
wordlist = jieba.cut(f_title, cut_all = True)
wl_space_split = " ".join(wordlist)
#詞雲展示
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
2 藉助詞雲生成工具,網上直接對文本生成詞雲的工具還蠻多的,可以試一下微詞雲,我試了一下還蠻好用的。直接將文本粘貼進去切詞並使用即可
大家可以嘗試一下分析自己的行爲數據,這些基本的功能在日常的工作中也是經常用到的,拿自己的數據來練練手更有感覺,可能還有會意外收穫哦。
歡迎大家關注我的微信公衆號: bigdata_follower.