數據分析是一項實踐性很強的工作,涉及到很多交叉學科,需要不同的崗位和角色,來實現不同的性質的工作。
一 、數據分析師中的角色和職責
數據分析團隊師應該在科技部門內部還在業務部門內部一直存在爭議。在業務部門內部,對數據場景比較瞭解,容易找到數據變現的場景,數據分析師對業務提升幫助較大,容易出成績。但是弊端是僅僅對自己部門的業務數據瞭解,分析只是侷限獨立的業務單元之內,在數據獲取的效率上,數據維度和數據視角方面缺乏全局觀,數據的商業視野不大,對公司整體業務的推動發展有限。業務部門的數據分析團隊缺少數據技術能力,無法利用最新的大數據計算和分析技術,來實現數據分析和建模。數據分析和計算依賴於科技部門,效率較低,無法打通各個環節和實現效率和收益最優。
- 數據庫(倉庫)管理員DBA
DBA最瞭解企業內部的數據和可用的數據資源,包括數據的存儲細節和數據字典,另外其對數據的採集、清洗和轉化起到關鍵作用。
DBA爲數據科學家和數據分析師提供加工好的原始數據,這些數據是數據分析和建模的基礎,DBA做了數據分析工作中最重要的基礎工作,完成了大量的髒活和累活。
2 .業務專家
業務專家的優勢是數據的商業敏感度,瞭解業務需求,可以將業務需求轉化爲數據需求,進一步找到數據應用場景。另外業務專家也可以通過對數據的分析,找到新的商業機會,同業務部門一起制定商業計劃,利用數據分析推動業務增長。
業務專家的經驗對於數據分析和建模是非常關鍵的,他們可能是風險管理人員、欺詐監測專家、投資專家等。數據建模來源於業務經驗和業務知識,正是業務專家的專業分析找到了業務規律,從而找到了建模方向,並對建模工作給出建議和解釋。
- 數據科學家
過去統計分析依賴於統計分析工具,大數據時代之後,數據量級的提升和數據類型的複雜程度,讓很多傳統的統計分析工具無法完成分析計算。這個時候,數據科學家出現了,他們可以利用自己的專業技能幫助業務專家和數據分析人員進行建模和計算。
過去數據統計分析建模常用SPSS,SAS,MATLAB等工具,現在基於大數據平臺的分析建模可以使用Spark+Scala/Python/R/Java。數據科學家瞭解模型和算法,可以直接承擔建模和調優工作,懂得選擇合適的算法來進行計算,提高效率。
- 數據分析師
數據分析師站在數據和商業的角度來解讀數據,利用圖標和曲線等方式向管理層和業務人員展現分析結果,揭示數據分析產生的商業機會和挑戰。
數據分析師將雜亂的數據進行整理後,將數據以不同的形式展現給產品經理、運營人員、營銷人員、財務人員、業務人員等。提出基於數據的結果和分析建議,完成數據從原始到商業化應用到關鍵一步,數據分析師的數據敏感度、商業敏感度、分析角度、表達方式對於商業決策很重要。
5 .運營專家
數據分析結果和商業決策出來之後,運營專家負責實現商業決策。通過有計劃的運營活動,將數據分析的結果應用到實際的商業活動之中,運營專家是實現數據變現最後一公里的關鍵人物。
運營專家屬於業務人員,實際上參與業務運營活動,利用數據分析結果,實現業務場景和數據場景的結合,實現數據商業化應用。
二、 數據分析之前的各項準備工作
數據分析團隊各成員確定之後,將進行下一項工作,就是找到有價值的數據進行分析了。數據是分析的基礎,因此數據的質量、數據的相關度、數據的維度等會影響數據分析的結果影,其中GIGO(垃圾進垃圾出)對於數據分析結果影響最大。
1 .數據源選擇
數據分析團隊面對大量的數據源,各個數據源之間交叉聯繫,各個數據域之間具有邏輯關係,各個產品統計口徑不同,不同的時間段數值不同等。這一系列問題多會影響數據分析結果,因此確定數據源選擇和數據整理至關重要。
DBA可以基於數據分析需要,找到相關數據,建立一張數據寬表,將數據倉庫的數據引入到這張寬表當中,基於一定的邏輯關係進行彙總計算。這張寬表作爲數據分析的基礎,然後再依據數據分析需要衍生出一些不同的表單,爲數據分析提供乾淨全面的數據源。寬表一方面是用於集中相關分析數據,一方面是提高效率,不需要每次分析時都查詢其他的數據表,影響數據倉庫效率。
- 數據抽樣選擇
簡單的數據分析可以調用全體數據進行分析,數據抽樣主要用於建模分析,抽樣需考慮樣本具有代表性,覆蓋各種客戶類型,抽樣的時間也很重要,越近的時間窗口越有利於分析和預測。在進行分層抽樣時,需要保證分成出來的樣本比例同原始數據基本一致。
3 .數據類型選擇
數據類型分爲連續型和離散型,建模分析時需要確定數據類型。進行業務收入趨勢分析、銷售額預測分析、RFM分析時,一般採用連續型變量。信用評級、分類預測時一般採用離散變量。
4 .缺失值處理
數據分析過程中會面對很多缺失值,其產生原因不同,有的是由於隱私的原因,故意隱去。有的是變量本身就沒有數值,有的是數據合併時不當操作產生的數據缺失。
缺失值處理可以採用替代法(估值法),利用已知經驗值代替缺失值,維持缺失值不變和刪除缺失值等方法。具體方法將參考變量和自變量的關係以及樣本量的多少來決定。
- 異常值檢測和處理
異常值對於某些數據分析結果影響很大,例如聚類分析、線性迴歸(邏輯迴歸)。但是對決策樹、神經網絡、SVM支持向量機影響較小。
一般異常值是指明顯偏離觀測值的平均值,例如年齡爲200歲,平均收入爲10萬元時,有個異常值爲300萬元。第一個異常值爲無效異常值,需要刪掉,但是第二個異常值可能屬於有效異常值,可以根據經驗來決定是否保留或刪掉。
6 .數據標準化
數據標準化的目的是將不同性質、不同量級的數據進行指數化處理,調整到可以類比的範圍。例如在建立邏輯迴歸模型時,性別的取值是0或以,但是收入取值可能就是0-100萬,跨度較大,需要進行標準化。
一般可以採用最佳/最大標準化(Min-Max標準化法)將數值定在0和1之間,便於計算。Z分數法和小數定標標準化法也可以採用。
7 .數據粗分類(Categorization)處理
歸類和分類的目的是減少樣本的變量,常有的方法由等間距分類,等頻數分類。可以依據經驗將自變量分成幾類,分類的方法可以不同,建議採用卡方檢驗來決定採用哪種分類方法。連續型變量可以用WOE變化方法來簡化模型,但降低了模型的可解釋性。
8 .變量選擇
數據分析過程中會面對成百上千的變量,一般情況下只有少數變量同目標變量有關,有助於提高預測精度。通常建模分析時,有意義的變量不會超過10-15個,稱他們爲強相關變量(聰明變量)。可以利用變量過濾器的方法來選擇變量。常見的變量過濾器應用場景如下。
一般IV值大於0.3代表變量的預測力較強,可以採用。
三 、數據分析過程
- 向業務部門進行調研,瞭解業務需要解決的問題,將業務問題映射成數據分析工作和任務。
2.調研企業內外部數據,找到分析需要的數據,將數據匯聚到一個特定的區域,數據集市或數據倉庫,探索性分析
3.數據清洗,包括檢查數據的一致性,處理異常值和缺失值,刪除重複數據等
4.數據轉換,例如數據分箱(Binning),將字符型變量轉化爲數字型變量,按照數據所需維度進行彙總
5.建立模型,按照業務需求建立不同模型(例如客戶流失預警、欺詐檢測、購物籃分析、營銷響應等)
6.模型結果解釋和評估,業務專家進行業務解釋和結果評價
四 、大數據分析場景和模型應用
數據分析建模需要先明確業務需求,然後選擇是描述型分析還是預測型分析。如果分析的目的是描述客戶行爲模式,就採用描述型數據分析,描述型分析就考慮關聯規則、序列規則、聚類等模型。
預測型數據分析就是量化未來一段時間內,某個事件的發生概率。有兩大預測分析模型,分類預測和迴歸預測。常見的分類預測模型中,目標變量通常都是二元分類變量例如欺詐與否,流失與否,信用好壞等。迴歸預測模型中,目標變量通常都是連續型變量,常見的有股票價格預測、違約損失率預測(LGD)等。
生存分析聚焦於將事件的結果和出現這一結果所經歷的時間進行分析,源於醫療領域,研究患者治療後的存活時間。生存分析可也可以用於預測客戶流失時間,客戶下次購買時間,客戶違約時間,客戶提前償還貸款時間,客戶下次訪問網站時間等。
常見的數據分析應用場景如下:
1 .市場營銷
營銷響應分析建模(邏輯迴歸,決策樹)
淨提升度分析建模(關聯規則)
客戶保有分析建模(卡普蘭梅爾分析,神經網絡)
購物藍分析(關聯分析Apriori)
自動推薦系統(協同過濾推薦,基於內容推薦,基於人口統計推薦,基於知識推薦,組合推薦,關聯規則)
客戶細分(聚類)
流失預測(邏輯迴歸)
2 .風險管理
客戶信用風險評分(SVM,決策樹,神經網絡)
市場風險評分建模(邏輯迴歸和決策樹)
運營風險評分建模(SVM)
欺詐檢測(決策樹,聚類,社交網絡)
五、數據模型評價的方法
1AUC值判別法
AUC小於0.7識別能力很弱
AUC在0.7-0.8之間識別能力可接受
AUC在0.8-0.9之間識別能力卓越
AUC大於0.9模型出現意外
2KS判別法
KS值大於0.2就表示具有較好的可預測性
PS:網舟科技長期專注於金融保險、通信、航空、互聯網、旅遊酒店等行業的電子渠道大數據運營,爲客戶提供全球領先的電子渠道轉型諮詢、大數據挖掘和應用定製服務,助力客戶互聯網轉型,提升數字化運營和數據營銷能力。