基於網站日誌數據挖掘的用戶訪問行爲模式可視化研究

摘要:在進行互聯網用戶瀏覽行爲的定量研究中,我們採用數據挖掘的方式對網站日誌進行分析,用可視化技術展現日誌的有效信息,開發了一個基於網站日誌的可視化分析系統。這個分析系統通過用戶產生的服務器日誌數據自動還原出網站結構,按照頁面流量閾值繪製站點地圖,並將關鍵的頁面流量數據及其他商業指標進行可視化處理,標註在這張特殊的網站地圖上。這個分析系統能夠讓用戶研究員更加實時直觀地瞭解網站用戶動態,獲得網站重要頁面及產品的直觀圖像甚至健康狀態。
關鍵詞:網站日誌,數據挖掘,可視化,多維縮放,相關性分析
1. 引言
隨着互聯網的飛速發展,人們的工作和生活越來越依賴網絡,尤其在金融、電子商務等領域裏,傳統的交易模式已經被快速便捷的網絡交易模式所取代。網站用戶數量及其訪問率隨之迅猛膨脹,如何更加快速實時瞭解用戶訪問行爲模式,幫助改善企業網站的用戶體驗,成爲越來越備受關注的課題。數據挖掘技術和網絡信息的可視化爲該課題提供了有效的解決途徑。
2. 日誌數據挖掘
2.1 概述
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。用戶在訪問網站過程中,服務器會將用戶的訪問軌跡記錄在網絡日誌中。對這些日誌進行分析,研究者將會發現很多有價值的信息。
我們研究小組研究開發了基於網絡日誌的網站用戶行爲可視化系統G2G(the Guide to Galaxy)。在該系統中,我們採取的分析過程主要包含數據預處理,數據提取,數據可視化三個部分。本節我們將分別闡述分析過程以及實現原理。
2.2 數據預處理
數據預處理部分包括數據清理和數據補充。
對於訪問量較多的大型網站,日誌數據往往也會相對龐大。在提取有效信息之前,我們需要過濾掉無效信息,例如出錯記錄、圖像文件請求記錄以及公司內部員工由於工作需要產生的訪問記錄等干擾記錄;另外,如果研究目的不是分析研究網絡爬蟲行爲,我們也需要過濾掉這些非人爲產生的記錄。
對於用戶訪問的URL,很多研究者更傾向於從宏觀角度研究,更關心這是屬於哪一種類型的URL。因此,我們需要在每個URL上補充一個類別標記,以便於我們在可視化展示的過程中,研究者很容易看到各類URL的訪問情況。
2.3數據提取
每條訪問記錄裏包含如下信息:當前訪問URL、來源Refer(用戶訪問當前頁面的前一個來源頁面,例:用戶從A頁面的某個連接進入B頁面,則B頁面的Refer是A頁面;如用戶直接在地址欄輸入頁面B的URL並轉向B頁面,或直接從收藏夾打開B頁面,則B頁面的Refer爲空)、訪問時間、IP地址、CookieID(用來標識用戶)、瀏覽器信息等。這些正是我們需要提取的信息,經過程序處理,我們將把這些信息讀取到數據結構裏,圖1描繪了數據提取在整個分析過程中的作用。


1 數據提取過程

在圖1中,左邊柱狀圖爲網站日誌,我們截取某個時間段的日誌,提取出以上信息,還原爲各單獨用戶的訪問序列,形成索引節點,最終在可視化界面上以多種維度顯示有價值的信息。
2.4數據可視化
我們的系統分爲三個頁面,圖2是時間步數序列圖,圖3是URL分佈圖,圖4是行業用戶羣關係圖。


2 時間序列圖

圖2縱座標爲時間:0:00-24:00,橫座標爲用戶訪問步長:1步-800步。每個像素代表用戶在一分鐘內有多少用戶訪問過,顏色越紅表示訪問用戶越多。例如,當某個用戶的訪問步長是100步時,則在橫座標爲100處,縱座標爲用戶訪問時間處標註顏色。如果用戶在接連不斷的訪問網站,則在相應位置會出現一條縱線。


3 URL分佈圖

圖3上的每個圓圈代表網站的一個URL,圓圈大小代表訪問量,越大代表訪問量越高。顏色代表轉換率,越藍代表轉換率越高。基本上,藍色節點可以看做是起點,橘黃色節點可看做是終點。
URL的排列採取目錄結構方式,內圈代表最簡單的目錄,越往外圈,目錄越深。例如,某個URL名稱爲a/b/c.html,則a作爲一個URL在最內圈,a/b在次外圈,a/b/c.html在第三圈。在很多情況中,a和a/b只是純目錄結構,並非實際頁面,並沒有用戶會訪問到它們。因此以正方形表示,以此爲圓心的空心圓圈大小代表其子節點的總訪問量。在上例中,a的空心圓圈的大小就是a/b,a/b/c.html,a/d,a/d.html等等形如“a/*”的頁面的訪問量之和。


4 行業用戶羣關係圖
圖4展示了不同行業用戶羣之間的互相發送反饋行爲的情況,可以作爲行業相關性分析的一個重要參考。圖中不同的圓代表不同的行業,圓越大代表該行業的用戶羣越活躍,圓的顏色越偏向紅色說明該行業相對被關注得越多,越偏向藍色則說明該行業相對被關注得越少。最有價值的信息是不同圓之間的距離,距離越近說明兩者之間相關度越高。圓與圓之間的連線表示兩個行業之間存在足夠的聯繫。
2.5 實現方法及原理
由於涉及到海量日誌信息的處理以及大量節點圖形的表現,爲了在可視化顯示上儘可能地做到高效,我們採用Xlib來實現圖形展示。
其中,在繪製URL分佈圖時,由於有些情況下需要快速繪製上萬甚至十幾萬的節點及連線,此時使用Xlib自帶的繪圖函數已不能滿足需求,於是我們採用了內存緩衝的方式,先用高效的算法在內存緩衝區中畫出圖形,再緩衝區輸出到屏幕上圖形顯示區域。
另外,由於需要表現的信息維度較多,我們從多種角度表現信息,例如視覺角度的顏色、大小、位置關係等,而用戶訪問路徑等信息則通過交互方式來展現。
行業相關性分析的數據來源於不同行業用戶之間的發送反饋的記錄,我們將一段時間內(比如24小時)所有反饋記錄提取出來,得到任意兩個用戶羣之間的聯繫方向與次數。
提取的反饋結果雖然包含了所有用戶羣之間的確切聯繫,但其所表現的關係是一種不直觀的高維關係,我們採用了多維縮放方法,在儘可能保持節點(用戶羣)之間相對關係的情況下將表格轉化成爲平面二維圖形。
3. 日誌分析結果
3.1 交互方式
G2G系統除了可以顯示網站結構,訪問量,轉化率等信息之外,還被加入了豐富的交互功能,允許用戶研究員選中或者搜索某個頁面(節點),查看當前頁面的主要用戶來源和流向,並打印出URL列表。


5 URL分佈圖

圖5中顯示了樣本時間內訪問網站內博客用戶的下一步去向,在圖的最下方顯示最主要的幾個來源和去向。
同時它也支持按照session或者cookie對用戶的羣體行爲進行多步回溯,從中發現用戶瀏覽網站或者產品使用上的羣體行爲。
另外,研究員可以在圖1中選中某個區域,點擊搜索,在圖2中將會只顯示選中區域時間段內的日誌信息,因此我們可以對某些時間段做針對性分析。
在行業相關性分析的界面,研究員可以點擊選中某個節點,此時將顯示由這個節點發出的指向其它節點的箭頭,這些箭頭代表當前選中節點所代表的用戶羣與其它節點用戶羣之間的主動聯繫關係。箭頭的長短與相關性強度成反比,箭頭越長說明相關性越弱。
現在這個系統可以在普通筆記本上在10分鐘內處理1000萬訪問量級別的日誌樣本。假設再加上實時的日誌數據,或許這個系統也將改變網站產品設計和內容運營的方式,讓網站運營成爲一個“Real Time Game”。

3.2 用戶訪問模式發現與分析
在利用G2G查看數據的過程中,我們會發現很多用戶訪問模式。
有些信息很明顯,例如從圖2上,我們很容易看出一天24時內,何時是訪問高峯期或低谷期,因此可以選擇合適的時間做一些更換服務器等維護工作。
我們也可以輕鬆查看到外站的搜索引擎會把用戶引導到哪些頁面,從而判斷哪種搜索引擎更有效。


6 用戶訪問步驟對比圖

圖6展示了不同搜索引擎所引導的用戶在我們網站上的訪問路徑。研究中發現,左邊搜索引擎引導的用戶數量偏少,後續訪問行爲也不強勁,而右邊搜索引擎效果相對較好,不僅用戶數量多,而且這些用戶黏性大,能夠在網站上持續訪問。
對於本站頁面,如果用戶沒有按照我們引導的路徑訪問,則可能說明這些頁面的用戶體驗存在問題,我們可以及時發現並做新的嘗試。
另外,我們在研究中發現一個有趣的現象,在阿里巴巴十週年時,從淘寶訪問阿里巴巴的用戶,大部分被引導到阿里巴巴十週年欄目。
研究者如果對數據比較敏感,或者能夠從多種角度查找信息,則會發現更多有價值的模式。
3.3 行業相關性分析
不同行業的用戶之間互發反饋的行爲,也讓我們對行業之間的相關性有了量化認識。
來自不同行業的用戶羣之間存在着許多聯繫,大部分聯繫與我們的常識或猜想一致,比如“紡織、皮革”行業與服裝行業顯示出了高度的相關性。但有時也會發現一些在我們平時的思維中不是那麼顯而易見的相關性。
另外,除了相關性外,無相關性也是值得關注的信息。比如冶金礦產與家居用品在圖中顯示出了很弱的相關性,這和我們的常識一致。但有些意外的是,服裝和服飾兩個行業的相關性也表現得很弱。
通過對行業相關性的分析,我們可以瞭解不同用戶羣之間的相關度如何,是否與我們預期的一致,是否有一些我們沒有想到的關聯,並由此進一步判斷用戶羣的分類是否存在優化的空間,這些信息對於產品陳列相關工作有較大的價值。
3.4 前景展望
在用戶研究的過程中,定量研究與定性研究應該是相輔相成的。定性研究對於訪談用戶的選擇經常會遇到困難,定量研究可以通過數據挖掘,尋找每個行業的活躍用戶,或者訪問指定路徑的用戶,定性研究可以有針對性的對這些用戶進行訪談分析。同時,定量研究也可以分析這些用戶日常在網上的行爲軌跡,從而驗證訪談結果。
對於指定URL,研究需要了解的不僅僅是上一步下一步的路徑,用戶是通過哪些路徑到達此處,又會轉往何處,這一系列的路徑更有研究意義,所以需要提取經過指定URL的最健壯的幾條路徑,從而達到給用戶分類的目的。
在網站中,特定用戶羣體的行爲也會備受關注。例如誠信通會員,使用特定瀏覽器的會員,是否有過網上交易行爲的會員,他們的訪問行爲如何?是否按照我們預期的路徑訪問?定量研究可以通過在預處理時增加關聯數據的方法,挖掘出這些會員的訪問路徑。
另外,從網站設計者的角度來看,對於設計者預想的流程,有多少用戶會買賬,在哪個節點被卡住,是非常重要的信息。我們可以通過選定多個URL,列舉訪問這些URL的用戶人次的方法實現。
對於每次比較重要的分析結果,我們可以保存到數據庫中,並以圖表的形式呈現變化趨勢。尤其是改版前後,重要數據的變化趨勢可以告訴我們用戶對新版本的接受程度。
4. 結束語
在改善用戶體驗領域,國內外在定量方面的研究還相對較少,而網站用戶的行爲軌跡對網站來說是一筆很巨大的財富,如果能夠充分利用這些信息,將對網站的發展意義重大,我們期待更多研究者參與網站用戶行爲的可視化研究領域。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章