網站數據挖掘與分析:系統方法與商業實踐 宋天龍 著

網站數據整合的範疇

網站數據整合的範疇指的是整合的數據範圍,從數據在企業中不同的支持作用來看,數據整合範疇包括業務數據整合、IT數據整合和職能數據整合;除了企業內部數據外,還包括 企業外部數據,如市場數據、行業數據、競爭對手數據等。

 

業務數據整合

業務數據整合的目的是將所有圍繞公司業務上下游的數據整合到一起,形成完整的業務流數據體系。以銷售類電子商務網站運作流程爲例,用戶從站外推廣渠道進入網站,在企業 網站完成在線訂單,之後跳轉到第三方支付平臺付款,企業通過線下物流配送將商品送到用 戶手中完成收貨,整個流程如圖(電子商務基本業務流程圖)所示。

站外營銷數據 企業網站數據 第三方網站數據 自有/第三方物流數據

站外推廣 →線上下單 →線上支付 →線下配送 →線下收貨

以上流程圖是圍繞用戶的業務數據整合,涉及網站營銷數據、網站流量數據、線上支付 數據、線下物流數據等;除此以外還可能包括網站運營數據、企業銷售數據、線下會員數據、 呼叫中心數據、倉儲數據等。

1.網站營銷數據

網站營銷數據是指企業在站外通過各種推廣方式投放廣告或合作,以實現用戶品牌認知、廣告宣傳或其他轉化爲目標所形成的數據。網站營銷數據的來源是站外各個投放渠道服 務商, 包括廣告數據、SEM數據、CPS數據、BD數據、EDM數據、社會化媒體數據、SEO 數據等。

(1)廣告數據

廣告是大多數企業投人費用最多的推廣方式之一,其推廣效果也更受人關注。廣告數據 是指以圖片、視頻、動態Flash甚至文字等形式對用戶展現的推廣方式。不同公司對廣告範 圍的定義不同,但基本上定義的核心都是以“展示”爲主。 廣告數據按來源分有兩種:第一種是通過代理商獲取;第二種是直接從投放終端獲取。 □通過代理商獲取:國內大多數優質廣告資源都被代理商壟斷,大型企業通常通過代 理商投放廣告。根據服務程度的不同,代理商的職責可能包括全案策劃、媒體購買、 媒體執行、媒體效果評估四部分。通過代理商投放廣告時都可以從代理商處獲得投 放數據。

□通過投放終端獲取:部分獨立售賣的媒介資源以及有資源的大型企業也會直接跟媒介 談判進行媒介購買,此時數據可直接從投放媒介的終端獲取。

不同的廣告系統提供不同的廣告數據維度,通用廣告系統的數據維度包括渠道信息、媒 介信息和促銷信息。

□渠道信息。用來標識渠道來源、細分渠道、付費形式等信息。如果在Sina投放廣告, 則渠道來源爲Sina; 如果在Sina上有多個媒體資源, 則需要細分跟蹤到每個媒體資 源。除渠道信息外, 通常還包括付費方式, 如CPD(包段廣告, 如包天、包月等, 門 戶的優質資源大多爲該形式) 、CPC(按點擊付費, 如谷歌網盟中可以按點擊付費) 、 CPA(按動作付費, 預先定義動作如註冊、下載等) 、CPM(千次展示付費) 等, 展示 類廣告大多以CPD、CPM和CPC爲主。

□媒介信息。用來標識投放媒介的具體信息,包括媒介位置(首屏、底部等)廣告 形式(彈窗、背投、Banner按鈕、畫中畫、貼片等) 、廣告尺寸(1000x 90像 120x240像素等)、廣告排期(廣告投放的起止時間,這些對廣告效果評估至關重要 作其他因素不變的條件下,首屏的廣告效果通常比二三屏的好,彈窗、背投等異形廣 告更引人注意,大尺寸廣告比小尺寸廣告容易得到關注,廣告時間對廣告效果的影響 更爲明顯:工作日比休息日流量更多,上午十點、下午三點、晚上十點是一天中的三

□促銷信息。用來記錄當前廣告的投放內容,如廣告可能包括品牌推廣類、商品推廣 個流量高峯。 類、促銷宣傳類等,其內容包括廣告活動(標識活動名稱)、廣告主題(標識活動的主 題)、廣告商品(廣告中是否有爆款和標杆產品)、廣告賣點(價格、折扣類信息)。促 銷信息在媒介信息的基礎上,當廣告展現給用戶後,直接決定了用戶的點擊慾望。 除了以上標準信息外,部分系統還可能提供更深人的數據維度,如針對人羣定位投放的 某些媒體會提供投放用戶的基本屬性,如性別、年齡段、愛好、網站域、主題域等;基於競 價的廣告媒介會提供競價排名、輪播數、展示時長、出價策略、優化策略、廣告規則等。 不同的廣告系統提供不同的廣告數據指標,通用的廣告系統數據指標包括費用指標和效 果指標兩類。

□費用指標。包括廣告費用情況,如總費用、基於細分渠道和位置的費用、基於點擊的 費用CPC、基於曝光的費用CPM、基於轉化的費用CPA等。 □效果指標。包括兩層意義:第一層是站外曝光類指標,包括曝光量、點擊量以及 CTR; 第二層是站內轉化效果指標, 如每次點擊回報、每次轉化收益等。 轉化類效果指標需要在站內相應的轉化頁面部署相應的代碼才能實現。

(2) SEM數據

SEM即搜索引擎營銷, SEM幾平是所有企業線上推廣的必備方式, SEM的特點是投放 相對精準、投人產出效果直觀可控、操作方式靈活。國內的SEM主要集中在百度, 其次龍 .M的數據來源跟廣告數據類似,既可以直接從搜索引擎獲取,也可以通過代理服務 SEM維度方面, 除了具備廣告的基本維度外, 還有一些SEM數據的特殊維度。

□賬戶結構:普通賬戶結構分爲賬戶、廣告計劃、廣告組和關鍵字四級,大型代理商仕 其主賬戶之下還會增加一個子賬戶的入□,即可分爲五級。

□賬戶信息:賬戶地城限制(只針對特定地區)、廣告覆蓋網絡(搜索網絡和展示廣告網

絡)、每日總費用(日費用限制)等。

□廣告計劃信息:廣告計劃、狀態、高級地理位置(適用於谷歌Adwords搜索網絡,包括通過地理位置定位、搜索意圖定位或兩者結合使用)、廣告投放時間(周、天、時 段控制)、廣告投放方式(標準、加速)、輪換顯示(均勻展示還是更多展示效果好的 廣告) 頻次上限(僅谷歌Ad wrds支持頻次上限設置, 頻次上線設置適用於CPM 告)等。

□廣告組信息:包含廣告組、狀態、關鍵字信息、定位條件(關鍵字、網站、特定主題、 特定人羣等)、投放設備(計算機、手機)、創意展現類型、附加創意等。

□關鍵字信息:包含關鍵字、狀態、匹配信息(匹配方式和匹配結果)、對應的廣告素材 信息、否定關鍵字、關鍵字質量等。

SEM指標除了與廣告類似的指標外, 還包括:

□出價信息。默認出價、出價浮動規則、最低出價、平均點擊價格等。

□效果數據。無效點擊次數、平均排名、置左率(左側展現機率,與關鍵詞質量度有關)等。

另外, Google Adwords還提供相對點擊率、通話、致電率、電話費用等特殊指標。

(3) CPS數據

CPS是企業推廣方式中轉化效果最好的推廣方式之一, 通常前期已經確認分成比例, 推 廣渠道完成轉化(通常定義爲銷售)後即分得相應的佣金。

CPS按照平臺屬性可分爲自有平臺和第三方平臺。如京東既有自己的京東銷售聯盟, 也 有跟第三方一起合作的平臺。

CPS類推廣渠道非常特殊, 在業務的實際操作中, 所有的分成費用支出都按照企業自身 的銷售系統數據結算。網站分析工具提供的數據往往“不準”,原因有以下幾個方面:

□跳轉導致的監測問題。當用戶點擊第三方平臺下的聯盟網站時,會先跳轉到第三方平 臺,然後再跳轉回推廣落地頁。由於跳轉(301或302)的存在,無法保證數據被正 常監測。

□訂單監測時間的問題。網站分析工具默認的廣告Cookie週期是6個月, 即如果這段 時間內沒有任何刪除或覆蓋規則, 那麼該Cookie一直有效, 該用戶會一直被標識爲 從該CPS渠道進入; 但企業與CPS服務商的訂單時間週期卻可以通過商務談判靈活 確定爲30天或一週等。不同時間週期內計算的結果通常會有出人。

□渠道覆蓋規則問題。在網站分析工具中通常都有渠道覆蓋規則定義,比如用戶在30 分鐘內先後從CPS渠道和SEM渠道進入網站下單, 通常該訂單會被認定是SEM貢 獻的; 但在銷售跟蹤系統中是通過API回調的形式跟蹤, 該訂單屬於CPS。這也會造 成數據不一致。

□訂單有效性的問題。CPS付費通常都有一定時間(通常是1~2個月) 的延期, 除了 財務流程外, 還有一個重要的因素是CPS只按照有效訂單(用戶正常收貨) 付費, 對 於下單之後又取消的訂單記爲無效訂單而不予支付。在網站分析工具中,線下拒收、 取消等是無法監測到的數據。

既然如此, 還有必要將CPS數據導人網站的分析系統嗎?答案是肯定的, 雖然數量上會有差異,但網站分析工具可以基於雙方交叉的樣本提供基於網站端用戶的行爲分析。

除通用數據維度和指標外, CPS中的特殊數據還包括聯盟平臺標識、佣金、佣金率等。

注意:CPS的核心數據如佣金等都位於企業內部, 由特定銷售類系統負責監測、收集和提示結算。

(4)BD數據

BD(商務拓展)包括所有以資源互換、免費合作等形式開展的業務推廣形式,BD通常更多的見於有一定資源企業的。

BD由於更多具有免費的性質,因此各個公司通常都有相應的需求。關於BD的具體數據與上述介紹類似,在此不做過多介紹。

(5)EDM是以電子郵件爲介質進行推廣的一種方式, 精準EDM是轉化率最高的渠道之一。

除上述通用信息外, EDM數據還包括以下特有數據。

□維度:發送人羣(郵件對應的用戶ID或手機)、發送時間、發送域。

□指標:發送量(發送的數量)、送達量(未被彈回的數量)、打開量(打開郵件的數量) 點擊量(點擊郵件內容的數量)、退訂數(退訂郵箱服務的數量)。

(6)社會化媒體數據

社會化媒體數據是企業數據的重要延伸,更是獲得用戶社交信息的主要戰場。企業中的 社會化媒體通常包括微信、微博、論壇、BBS等。

社會化媒體數據的維度包括:用戶賬戶信息、用戶屬性信息、用戶行爲信息、用戶標籤 信息、人脈信息等。

□用戶賬戶信息:用戶ID、關聯賬戶信息(QQ、微博)等。

□用戶屬性信息:用戶名稱、年齡、生日、教育、職業、家庭、收人、手機號等。

□用戶行爲信息:活動、話題、位置、分享、轉發、評論、贊、簽到、轉發路徑等

□用運籤信息:個人標籤(宅男、喫貨等)興趣標籤(科技、計算機、數據分析

□人脈信息:關注、粉絲、共同羣組或部落、圈子等。

社會化媒體數據也包括很多特色指標:影響力、評論量、轉發量、回覆量、分享量、關 注數量、粉絲數量、影響力、活躍度、提及率、帖子導向度(正面、負面、普通)等。

(7) SEO數據

SEO屬於營銷推廣中最特殊的一類,它不屬於付費推廣,但可能是網站自然流量的主要組成部分。

搜索引擎的工作流程非常複雜,這裏只列出其中幾個關鍵的節點,如圖(搜索引擎工作原理簡圖)所示。

蜘蛛爬行->數據索引->算法排名->結果展示->用戶點擊

1)蜘蛛爬行:搜索引擎通過特定程序(通常稱爲Spider或Robot) 對不同網站進行數據 爬行和抓取,每抓取一條記錄都會向網站服務器發送一次請求。

2)數據索引:搜索引擎將抓取到的數據按照一定原則進行索引歸類,並形成可供在詢 使用的數據倉庫,搜索引擎服務商一般不會提供該數據。

3)算法排名:當用戶搜索某個詞時,搜索引擎根據相關規則對該詞進行數據提取、結果 排序等運算,最終得出不同數據的記錄排名,這是搜索引擎的核心之一,所以該數據無法獲取。

4)結果展示:搜索引擎向用戶展示數據結果。

5)用戶點擊:用戶點擊感興趣的結果併到達相應的網站。

整個過程中可獲取如下數據。

□蜘蛛爬行數據:該數據在企業內部IT服務器的日誌中。

□展示結果數據:關鍵字、關鍵字排名、頁碼數等。

除了以上基於用戶點擊觸發的流程數據外,還包括收錄數、頁面關鍵字密度、關鍵字排 名、網站PR值、Alexa排名、Sogou指數、百度指數、百度快照、反向鏈接數、404頁面數 等數據。

 

2.網站流量數據

網站流量數據從網站分析工具中獲取, 數據平臺包括Web、WAP和APP站點。網站流量數據包括來源數據、訪客數據、網站數據和轉化數據四類。

(1)來源數據

來源數據即所有站外流量來源的信息,包含渠道分組、渠道、媒介、廣告活動、搜索引 擎(免費搜索引擎和付費搜索引擎)、關鍵字(免費關鍵字和付費關鍵字)、社交信息(社交媒 體、社交動作,如分享等)、引薦來源、來源路徑及其他自定義廣告等。

(2)訪客數據

訪客數據即所有訪客屬性和特徵信息, 包括訪客特徵(用戶ID、年齡、性別等CRM特 徵、訪客興趣(購買類別、瀏覽傾向等)、地理位置(語言、國家、城市等)忠誠度(新老 訪客、訪問頻率、訪問時間間隔、購買回訪等、訪問設備(設備類型、操作系統、瀏覽器等具體設備信息)、移動設備屬性(設備類型、具體設備名、設備運營商、地理位置、訪問環 境、手機號碼、系統版本等、移動設備行爲(用戶安裝、升級、啓動,以及用戶留存、活躍 度等數據)。

(3)網站數據

網站數據即所有站內頁面數據和非轉化行爲信息,包括訪問頁面、進入頁面、退出頁、站內搜索數據(搜索詞、是否有效搜索、搜索返回結果數)、頁面事件、AB測試等數

(4)轉化數據

轉化數據即所有轉化類信息,包括目標轉化、電子商務轉化(產品瀏覽、加入購物車、結算、提交訂單)等。

注意:在網站數據整合過程中,需要提供的數據粒度儘量細,彙總類數據儘量少,原因是網站數據的基本衡量都是以訪問爲定義基礎的,大部分維度之間無法直接進行數據彙總。如一個用戶訪問了A和B頁面,對全站來講是1次訪問,但是對A和B頁面來 講分別是1次訪問,全站的訪問不能通過A和B頁面訪問相加得出。

 

3.網站運營數據

網站運營數據是指網站運營管理者的後臺操作數據,該數據是分析站內資源運營效果的重要過程數據。如今大多數網站都通過內容管理系統進行網站管理,針對網站會員或網站內 容進行資源分配、維護和更新等,這些數據直接反映了站內各個數據對象的“前世今生”。網站運營數據主要包括商品管理數據、促銷管理數據、訂單管理數據、廣告管理數據和會員 管理數據。

(1)商品管理數據

商品管理數據即所有線上商品的管理信息,包含時間、商品數據(商品ID、商品屬性。 商品類別、品牌、商家等)、折扣數據(價格、促銷價、會員優惠價、贈送積分)、促銷數據 (促銷時間、促銷類型、促銷位置、運費、排序、展示次數)、庫存數據、商品狀態(上架、 下架、刪除、過期等)、關聯促銷管理(綁定促銷商品、關聯促銷商品)等。

(2)促銷管理數據

促銷管理數據即所有站內促銷活動的管理信息,包括促銷起止時間、促銷活動類型(捷 購團購,預售、試用、拍賣、二手等)、優惠券/積分管理(優惠券/積分類型、金額、 條件,有效時間發放數量,限制品類、限制金額、費用、積分兌換比例等、活動專貨 理(具體活動、活動主題、參與商品)等。

(3)訂單管理數據

訂單管理數據即所有訂單的管理信息,包括訂單號、審覈狀態(審覈中、未通過、 審覈、已提交等)、付款狀態(未付款、已付款)、支付信息(支付類型、支付銀行、分期時 信息等)、連轉環節(訂單進行步驟、如已出庫、已派件)、訂單合井(不同的訂單合異成1 訂訂單分拆(一個訂單分拆成幾個子訂單)、人工訂單(大客戶訂單處理操作)訂 貨登記等。

(4)廣告管理數據

廣告管理數據即所有站內廣告資源的信息,包括廣告資源類,廣告位置、廣告 廣告內容、上下架時間、輪播次數、廣告描述、廣告商家、廣告排等內容。

(S)會員管理數據

會員管理數據即所有線上會員管理的信息,包括會員基本信息(會員ID、是否驗證、郵 翰、性、年齡、00、手機)會員行爲信息(註冊時間、登錄時間、購買時間、評論、投 、濟、收藏、降價通知、分享、留言等)、會員等級、積分信息、優惠券信息等、會員促 銷數據(EDM、短信發送數據) 。

除了以上數據外,部分網站可能還有推薦功能,推薦功能涉及的數據包括:推薦時效性、 找源、推薦規則、推薦場景配置、閥值控制、人工干預規則、冷啓動規則等。

 

4.企業銷售數據

銷售數據是銷售類企業的核心,交易數據涉及訂單信息、商品信息、客戶信息、交易支 撐環節等。

□訂單信息:交易ID、交易日期、訂單價格、訂單數量、優惠信息(優惠券、積分)、 折扣信息(滿減、滿返)、訂單狀態等。

□商品信息:商品ID、商品名稱、商品品牌、商品類別、商品數量、商品廠商、商品 銷售平臺、成本價(原始進貨價、預留最低價)、銷售價格等。

□客戶信息:用戶ID、用戶姓名、註冊日期、登錄日期、用戶QQ、電子郵箱、聯繫方式等。

□交易支撐環節的信息:如第三方支付信息(支付平臺、支付銀行、支付狀態、支付金 額、) 、聯盟銷售信息(CPS聯盟、自有平臺、第三方平臺等) 、配送狀態信息等。 除此之外,部分企業還可能包括購物車信息,包括購物車ID、用戶ID、購物車商品 ID、商品名稱、商品數量、狀態步驟等。

 

5.線下會員數據

對於O2O類型的企業或有線下支持的企業往往擁有大量的線下用戶羣體,其中很多數據是線上無法獲得的寶貴財富,如會員性別、年齡等。線下會員數據比網站運營數據的範疇 更大,包含的數據內容更多。

除了線上會員的所有數據外,線下會員還會包括:退換貨數據(退換貨金額、訂單ID、 商品ID、時間、原因、費用等、訂單拒收數據(拒收時間、會員ID、訂單ID、訂單價值、 運費)等,甚至部分線下店面通過監控視頻收集用戶線下店內“逛店”行爲,或者通過無線Wi-Fi免費開放等方式進行線下用戶身份識別等,都可以提供更多的會員數據。

 

6.呼叫中心數據

大型企業都有呼叫中心業務,通過客服代表完成針對特定客戶的特定業務目標,如處理 、推銷廣告、銷售線索跟進、客戶維繫等。呼叫中心的數據與其他數據略有不同:其中 包含大量的非結構化數據——語音。

呼叫中心的數據除了包含結構化的數據,如話務類型(投訴、諮詢、建議、查詢等)、工單號、話務時間(起止時間和持續時間、話務員、內部接口人員,排隊時間、通話時長、道 話放棄等外,還包括通話語音內容。通話語音內容都是以音頻的形式存在的,其數據結構無法直接與傳統的結構化數據做對接。

另外,呼叫中心的數據可能包含所有客戶、網站運營、銷售訂單、物流配送等方面的數據。比如用戶電話諮詢訂單被取消的原因,呼叫中心就需要調取網站運營中網站訂單管理相 關數據記錄進行查詢和反饋,再如用戶電話投訴產品質量問題,需要呼叫中心通過該用戶信息關聯到該用戶的訂單和產品信息進行回覆諮詢。

 

7.倉儲物流數據

企業倉儲和物流作業是緊密相連的,倉庫內商品的週轉必須通過物流進出實現。因此這 裏將倉儲和物流放到一起介紹。

倉儲物流作業流程,如圖6-3所示。

□商品人庫。這是所有倉儲環節的第一步,企業將商品從生產商或上級經銷商、代理商 品運轉到企業倉庫,形成商品進貨人庫;當商品(尤其是爆款)銷售預期較好時,會 進行商品補貨處理以滿足訂單需要,此時會產生商品補貨入庫。

□訂單處理。訂單信息通過訂單系統傳輸到倉儲管理系統,倉庫內完成訂單處理後通過 物流配送到客戶手中完成收貨,此時完成正向訂單作業處理;當企業回收或客戶退貨 時,商品從客戶手中通過物流返回到倉庫,形成逆向訂單作業處理。

□庫存調撥處理。庫存在不同倉庫(同級倉庫)或不同級別倉庫(子母倉、一級二級倉 物流中心到倉庫等)間進行調撥處理,以滿足不同倉庫的商品需求。

(1)倉儲數據

企業倉儲數據主要包括基本數據、入庫數據、出庫數據和調撥數據。

□基本數據通常是倉庫內的靜態數據,包括商品信息(商品編碼、條形碼、商品名稱、規格參數、計量單位、有效期、進貨價、進貨批次、商品類別、商品品牌、商品供應 商和生產商等)、倉庫信息(倉庫編碼、倉庫名稱、倉庫地址、庫管員、聯繫信息等)、供應商信息(供應商編碼、供應商名稱、供應商地址、聯繫信息、銀行信息等)、商品 庫存信息(商品編碼、庫存類型、庫存量、庫存金額、庫存時間、有效期)等。

□人庫數據涵蓋了採購人庫、退貨入庫數據,包括時間、人庫類型(採購、補貨、退貨 等)、批次信息、商品信息(進貨價、數量、金額、破損情況)、採購商信息(供應商 編號、交貨日期、制單日期、經手人、操作員)、關聯訂單信息、關聯配送單信息等。

□出庫數據涵蓋了訂單出庫數據,包括時間、倉庫信息(倉庫編碼)、出庫信息(出庫類 型如訂單、報廢、退回廠家等,以及出庫編碼)、商品信息(出貨價、數量、金額)、 客戶信息(姓名、地址、聯繫方式等)、關聯訂單信息、關聯配送單信息等。

□調撥數據是一類特殊數據,商品調撥在會計中會計算爲商品銷售處理,但在公司內部 各部門間計算成本和收入時需要將其剔除。調撥數據包括單據編碼、日期、調出倉 庫、調入倉庫、制單人員、複查人員、審查人員、關聯配送信息、調撥商品信息(商 品編碼、名稱、批次、單價、數量、總金額)等。

除以上信息外,如果企業選擇第三方倉儲則會有第三方倉儲的信息。

(2)物流數據

物流數據主要包括客戶數據、訂單數據、車輛數據和路線數據四部分。

 

□客戶數據包括客戶姓名、聯繫方式、發貨地址等信息。

□訂單數據包括訂單編碼、送貨時間、貨物重量、收貨人姓名、收貨人聯繫方式、收貨 人地址、配送方式、配送狀態、配送費用等。

□車輛數據包括交通方式、車隊編碼、配送車輛編碼、配送人員、生產日期、購買日 期等。

□路線數據包括配送路線(起始城市、中轉城市、終點城市)、路線長度、地理位置、預 計時間、配送區域、配送站點、交接數據(交接編碼、交接人、上一級區域、本級區 域、交接狀態、時間)等。

 

IT數據整合

IT數據整合的意義是利用IT數據拓展網站分析工具(尤其是SAAS模式網站的分析工具)所缺乏的數據維度和指標。IT主要整合的數據是網站日誌以及基於現有的網站架構數據。

 

1.日誌數據

網站分析工具可以提供用戶的訪問日誌數據, 但主流的工具都採用SAAS模式, 其是通過頁面標籤來記錄用戶信息的。很多信息無法通過頁面標籤法(SAAS模式下的信息採集方法)記錄,即使可以實現也相對複雜,如HTTP狀態碼數據和User-Agent數據。

(1) HTTP狀態碼數據

HTTP狀態碼(HTTP StatusCode) 是用以表示網頁服務器HTTP響應狀態的3位數字代碼,所有狀態碼的第一個數字代表了響應的狀態。

□1開頭的狀態碼。這是一類信息狀態碼,表示請求已被接受,需要繼續處理。這類 響應是臨時響應,只包含狀態行和某些可選的響應頭信息並以空行結束,常見的如 100、102等。

□2開頭的狀態碼。這是一類成功狀態碼,表示請求已成功被服務器接收、理解並接 受,最常見的是200、206。

□3開頭的狀態碼。這是一類重定向狀態碼,表示需要客戶端採取進一步的操作才能完 成請求。通常這類狀態碼用來重定向後續的請求地址(重定向目標),其在本次響應的 Location域中指明, 常見的是301、302。

□4開頭的狀態碼。這是一類請求錯誤狀態碼,表示客戶端看起來可能發生了錯誤,妨 礙了服務器的處理,常見的如404。

□5開頭的狀態碼。這是一類服務器錯誤狀態碼,表示錯誤發生在服務器端,常見的如 503、504等。

這些狀態碼數據對網站分析有什麼作用呢?

通過網站分析工具分析用戶行爲時,通常只能得到結果數據,如跳出率、退出率、停鼠

時間等,但狀態碼可以提供“發生了什麼”的過程數據,例如:

□發生404錯誤的頁面通常頁面退出率和跳出率高且停留時間短。

□針對用戶點擊下載的監測,如果採用頁面標記法只能檢測是否有點擊下載的行爲,即 回答是否下載,但無法監測下載完成情況,在日誌文件中通過206狀態碼可以檢測整 個下載過程。

□在某些情況下(比如大型促銷活動時)會發現一些特殊情況,如某頁面沒有數據或兩 個特定的頁面具有完整的路徑流,其中可能存在跳轉的問題。無論是301還是302跳 轉,大部分情況下都會導致跟蹤代碼丟失而無法正確跟蹤到數據;即使在一小部分情 況下能正常跟蹤到數據,也會發現被跳轉的頁面跳出率和退出率高、頁面停留時間 短,並且跳轉前後的頁面直接形成沒有其他路徑參與的路徑流向。這些數據可以通過 HTTP狀態碼分析直接獲取。

(2) User-Agent數據

大多數蜘蛛不會爬行JS文件,這種工作機制的好處在於頁面標籤法可以自動過濾掉蜘蛛爬行數據而只保留真正的“用戶”數據;但另一方面,排除蜘蛛爬行數據的同時也意味着無法通過分析搜索引擎蜘蛛在網站上的爬行行爲而爲SEO服務。

什麼是蜘蛛?所謂“蜘蛛”,實際上是一種計算機“機器人“,它是以檢索信息爲目的軟件程序。它可通過網頁的鏈接地址來尋找其他網頁,從網站某一個面面(通常是首頁)開始讀取網頁的內容,找到在網頁中的其他鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完爲止,這樣不斷工作形成類似

蝴蛛網一樣的工作環境。

蜘蛛爬行的目的是採集網頁信息,日誌中的蜘蛛主要是搜索引擎蜘蛛,即用來爲搜索引 擎服務:其次還會有企業或個人製作的用於特定目的的蜘蛛程序。在正常情況下,所有網頁 上的訪問記錄都有Use-Agent信息, 並通過Use-Agent識別不同的蜘蛛程序。以下是一段百 度蜘蛛的爬行記錄:

180.76.5.71 [30/Apr/2014:20:33: 03 +0800] ”GET /website-optimization- rescuad.com/aearch/spi det.html y.Mozi1la/5.0(compatible; Baidu spider/2.0; +http://www.baidu.com/search/spider.html

從以上記錄中我們看到該百度蜘蛛名爲Baidu spider, 對應的IP爲180.76.5.71, 它是在北京時間2014年4月30日20:33:03爬行了一個webite-optimiza tin-resources網頁, 網

頁爬行返回200成功狀態碼。通過這段日誌信息,可以很容易地分析出搜索引擎到企業網站的爬行習慣,如時間、路線,蜘蛛類型(不同的蜘蛛有不同的爬行目的)、網頁返回信息 (大量404頁面會被搜索引擎認爲網站價值很低,正常應該返回200)等,針對這些信息,可以爲站內內鏈分佈、頁面錯誤檢索、頁面發佈更新、服務器壓力調整和優化等提供數據 支持。

 

2.網站架構數據

網站分析工具能跟蹤所有的進行標記的頁面信息,但這些頁面信息都是孤立的信息點,

其中很多可以通過IT拓展出更多的分析維度。

(1) URL結構數據

URL結構中包含了當前頁面的重要信息, 以下是某網站平板電腦頁面的URL:

http://www.....cn/category/cat10000049-10-0-36-1-0-0-0-1-14VF18EP18wv18 wF-0-0-0-0-0-0-0-0.html

該URL中包含了產品列表名、品牌、價格、屏幕尺寸、產品類型、排序方式、商品庫 存類型、送貨地域、分辨率、功能、屬性等信息並通過URL參數表示, 如cat 10000049代表 平板電腦;14VF代表夏普品牌;18wF代表1000以下的價格區間等。

這些參數可以通過頁面自定義變量提取出來整合到系統中,從而得到更多深層次的數據價值點:品牌喜好度、價格敏感特徵、屏幕尺寸偏好等;如果用戶有登錄行爲,可以直接通 過用戶ID關聯到用戶的真實信息,對用戶的分析不僅侷限於頁面、商品這些粗粒度的數據上,而是細化到商品的價格、品牌、尺寸、屬性等具體參數上。這種數據無論對頁面運營、 用戶體驗還是用戶定向營銷都有重要的指導意義。

(2)網站結構數據

IT部門在設計網站時,已經根據特定的規則和目標將網站結構和產品功能進行劃分,這些不同的結構和功能數據都可以整合到數據系統,如頁面結構數據、產品功能數據。

□頁面結構數據。IT部門可以將網站結構數據整合到數據系統中,包括頁面分類層級、 分類具體信息、子頁面等,這些信息可以直接將網站頁面層級化、結構化。

□產品功能數據。除了頁面級別的數據整合外,頁面中具體產品的功能同樣可以整合, 如浮層、按鈕、標籤、表單、圖片、文字等。通過整合這些數據,可以對網站功能或 頁面對象做出劃分,方便日後網站功能優化、用戶體驗優化等。

除了業務數據、IT數據以外,企業還有一類特殊數據——職能數據。職能數據是獨立於業務數據之外的獨立體系,反映了整個公司除業務外的運營狀態和信息,包括財務數據、HR 數據、辦公數據等。職能數據的整合是企業內部流程化、標準化運作的基礎,也是優化內部效率和投入產出比的重要途徑,更是觀測企業風險和發展趨勢的風向標。由於本書的主要對 象是業務人員,因此智能數據在此不展開介紹。

除了企業內部數據外,企業外部數據如市場數據、行業數據、競爭對手數據等也是企業數據整合的重要信息,這些信息包含了企業在市場中的地位、作用和競爭信息,能夠幫助企 業建立整個行業級的數據視角;同時,關鍵市場和情報信息還會提供關鍵市場機會,如競爭 對手的產品動態、價格策略、廣告策略等。這些信息是企業數據整合的重要部分。

 

 

上述文章來源:

https://e.jd.com/30189936.html

網站數據挖掘與分析:系統方法與商業實踐 宋天龍 著

出 版 社機械工業出版社

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章