自己的行爲自己來分析-數分技能提升

本週有技術大神在知乎、專業安全網站爆出TX扣扣在偷偷抓取個人瀏覽器瀏覽記錄並上報,一石激起千層浪,迅速成爲圈內熱門話題。博主這裏不敢亂評價(你懂的)。我們從另外一個角度來切入話題。

瀏覽記錄本身是屬於網站行爲數據,對該數據分析也就是網站行爲分析,對於互聯網從業者來說,這是一個必備的技能,之前寫過一遍關於數據分析入門之用戶行爲分析的文章,大家有一定了瞭解。今天藉助這樣一個話題,對自己的瀏覽數據進行分析實踐,希望達到2個目的:

  • 掌握一些數據分析的技能;

  • 對自己過去一段的上網行爲有一個量化的認識

一 準備數據源

將瀏覽記錄下載到本地,不同的瀏覽器下載方式不同,可能要藉助不同小工具,已谷歌瀏覽器爲例(需要安裝插件Export Chrome History),步驟如下:

  1. 下載地址: https://chrome.google.com/webstore/detail/export-chrome-history/dihloblpkeiddiaojbagoecedbfpifdj
  2. 添加至Chrome
  3. 添加完成之後,點擊右上角時鐘按鈕,下載最近1年或者1周的數據
  4. 下圖是下載csv數據,大部分可以在Excel中分析



    至此數據源準備完畢,開始用Excel進行分析。

二 Excel數據分析

涉及知識點:透視圖、hour、mid、find函數、圖表展示
具體步驟:
1)添加"小時"、"域名"兩個計算列,每個url後續參數較多,去掉參數方便彙總,這個也是用戶行爲分析中非常重要的一步,當然也可以添加其他計算列

"小時"列:hour(d2)
"域名"列:MID(F2,FIND("//",F2)+2,FIND("/",F2,FIND("//",F2)+2)-FIND("//",F2)-2)


2)創建透視圖


3)每日瀏覽量(PV)分析
可以看出平均每天瀏覽2100個頁面,其中工作日能達到2500個,週末只有900多。

4)每日時段瀏覽記錄分析
可以看出,每天早8點、晚8點瀏覽網頁最多,其次是早9點和晚9點,早上10點這個階段比其他時間少一個量級,猜測一下我在幹嘛呢?

5)網站熱度分析
可以看出知乎和知識星球是真愛啊,知乎所佔比例這麼高自己都不知道。

6)上面幾個分析雖然比較簡單,但是自己之前還真的不知道。大家也可以嘗試其他角度的分析。比如哪個時間段在看什麼網站、自己關注的網站是不是也有時間週期等。
三 詞雲製作
上面進行了簡單的統計分析,但是自己這段時間到底在網上看什麼內容是看不出來的,數據源中還有網頁標題這項數據,這個時候可以藉助詞雲來進行可視化展示。這裏介紹2種方式實現詞雲可視化。

1 Python自己碼代碼,具體步驟如下:

  • 安裝Python軟件(建議直接安裝3.0,不要安裝2.7版本了)
  • 安裝Python相關包matplotlib、wordcloud、jieba
  • 將excel中title列單獨copy一個文本文件中。
  • 碼代碼,python是輕量級的,入門相對容易,下面10行即可搞定
 #!/usr/bin/env python
# -*- coding: utf-8 -*-
#coding:utf-8
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#讀取文件內容
f_title = open('/Users/haixiao/Downloads/url_titles.txt').read()
#通過jieba進行分詞
wordlist = jieba.cut(f_title, cut_all = True)
wl_space_split = " ".join(wordlist)

#詞雲展示
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

2 藉助詞雲生成工具,網上直接對文本生成詞雲的工具還蠻多的,可以試一下微詞雲,我試了一下還蠻好用的。直接將文本粘貼進去切詞並使用即可



大家可以嘗試一下分析自己的行爲數據,這些基本的功能在日常的工作中也是經常用到的,拿自己的數據來練練手更有感覺,可能還有會意外收穫哦。
歡迎大家關注我的微信公衆號: bigdata_follower.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章