純乾貨!埃森哲的大數據分析框架分享-part 2

 

接着上一篇的內容,這篇主要講在PPT中提到的幾種分析方法以及每種方法的實現方式

0、簡述

在我們做數據分析或者數據挖掘時肯定要藉助一些分析方法來得到我們想要的結果,我們根據PPT的內容主要介紹幾種主要的分析方法,具體內容:
1.1 分類與迴歸
1.2 聚類分析
1.3 關聯分析
1.4 時序模型
1.5 遺傳算法
2 數據分析工具

每一種分析方法都有整理好的案例介紹(在傳送鏈接裏,附python實現代碼),先馬後看。

 

1、分析方法

提起數據分析,大家往往會聯想到一些密密麻麻的數字表格,或是高級的數據建模手法,再或是華麗的數據報表。其實,“ 分析 ”是每個人都具備的能力;比如預訂酒店時,我們會比對多家的價格,地理位置等信息後做出最終選擇。
這些小型決策,其實都是依照我們腦海中的數據點作出判斷,這就是簡單分析的過程。對於分析師來說,則需要掌握一套系統的、科學的、符合商業規律的數據分析知識。

幾種主要的分析方法彙總如下:

 

 

種類

功能

算法

典型應用

分類

迴歸

分類

決策樹、神經網絡分類、區別分析、邏輯迴歸、概率迴歸

風險分析、客戶挽留分析、欺詐探測

迴歸

線性迴歸、非線性迴歸

收益率分析,收入預測,信用價值預測,客戶潛在價值預測

聚類

集羣分析

K-平均值,神經網絡聚類

客戶分割

關聯

規則

關聯分析

統計學,集合理論

交叉銷售。捆綁銷售

序列關聯分析

統計學,集合理論

交叉銷售

相似時間序列分析

統計學,集合理論

產品生命週期

時序

模型

時間序列預測

統計時間序列模型、神經網絡

銷售預測、利率預測、損失預測

 
 
1.1、分類與迴歸

分類模型和迴歸模型本質一樣,分類模型是將回歸模型的輸出離散化。

"talk is cheap, show you the code"

一定不能少的三個模型:

邏輯迴歸,決策樹,支持向量機

 

邏輯迴歸

Logistic 迴歸算法基於 Sigmoid 函數,或者說 Sigmoid 就是邏輯迴歸函數。

 

其函數曲線如下:

640?wx_fmt=jpeg

邏輯迴歸(Logistic Regression)是一種用於解決二分類(0 or 1)問題的機器學習方法,用於估計某種事物的可能性。比如某信用卡用戶發生逾期的可能性。

 

決策樹

決策樹對於單調的特徵變換是”indifferent”的,也就是說特徵的單調變換對於決策樹來說不會產生任何影響.優勢:

  • 直觀的決策過程
  • 能夠處理非線性特徵
  • 考慮了特徵相關性

 

支持向量機

SVM最大的好處就是它只依賴於處於分類邊界的樣本來構建分類面,可以處理非線性的特徵,優勢:

  • 可以處理高維特徵
  • 使用核函數輕鬆應對非線的性特徵空間
  • 分類面不依賴於所有數據

 

邏輯迴歸,決策樹,支持向量機三個模型的詳細介紹:

https://blog.csdn.net/oliverkehl/article/details/50129999
 
 
1.2、聚類分析
聚類分析的一個重要用途就是針對目標羣體進行多指標的羣體劃分,類似這種目標羣體的分類就是精細化經營,個性化運營的基礎和核心,只有進行了正確的分類,纔可以有效進行個性化和精細化的運營,服務及產品支持等。

 

聚類分析是一種定量方法,從數據分析的角度看,它是對多個樣本進行定量分析的多元統計分析方法,可以分爲兩種:
對樣本進行分類稱爲Q型聚類分析
對指標進行分類稱爲R型聚類分析

 

從數據挖掘的角度看,又可以大致分爲四種:
  • 劃分聚類
  • 層次聚類
  • 基於密度的聚類
  • 基於網格的聚類
無論是從那個角度看,其基本原則都是:
最小化簇間的相似性,最大化簇內的相似性。

 

常見業務應用場景如下
  • 用戶分羣
  • 產品分類
  • 異常檢測
下面這篇文章對這些都有非常詳細的解釋:
https://blog.csdn.net/qq_39422642/article/details/78821812
 
1.3、關聯分析
關聯分析又稱關聯挖掘,就是在交易數據、關係數據或其他信息載體中,查找存在於項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。
簡單說就是找出事件間的聯繫或依賴,通過關聯分析找出數據集合中隱藏的關係網絡,例如大家都聽過的啤酒和尿布的故事。
 
關聯分析幾個常見的場景:
  • 市場組合分析
  • 套裝產品分析
  • 目錄設計
  • 交叉銷售
640?wx_fmt=jpeg
關於關聯分析分享一篇數據派的文章,裏面有很詳細的介紹:
 
1.4、時序模型
時序分析是以分析時間序列的發展過程、方向和趨勢,預測將來時域可能達到的目標的方法。此方法運用概率統計中時間序列分析原理和技術,利用時序系統的數據相關性,建立相應的數學模型,描述系統的時序狀態,以預測未來。
640?wx_fmt=jpeg
640?wx_fmt=jpeg
分析一篇有關ARIMA時序模型的案例應用:
 
 
1.5、神經網絡
神經網絡應用在分類問題中效果很好。工業界中分類問題居多。LR或者linear SVM更適用線性分類。如果數據非線性可分(現實生活中多是非線性的),LR通常需要靠特徵工程做特徵映射,增加高斯項或者組合項;SVM需要選擇核。而增加高斯項、組合項會產生很多沒有用的維度,增加計算量。GBDT可以使用弱的線性分類器組合成強分類器,但維度很高時效果可能並不好。而神經網絡在三層及以上時,能夠很好地進行非線性可分。
第一篇是我之前的一點學習筆記的分享:
第二篇是較爲詳細的《神經網絡的理解與實現》,附代碼:
https://www.cnblogs.com/lliuye/p/9183914.html
 

2、數據分析工具

下圖是原PPT給出的一些分析工具:
640?wx_fmt=jpeg
很多是我們在學生時代肯定會接觸到的工具,但是我想說
“Life is short, use Python”
所以上述的分析模型分實現方式裏都有python代碼。

 

| 作者Info:

【作者】:A字頭
【原創公衆號】:數據札記倌(Data_Groom)
【簡介】:這是一個堅持原創的技術公衆號,每天堅持推送各種 Python基礎/進階文章,數據分析,爬蟲實戰,機器學習算法,不定期分享各類學習資源。
【福利】:送你新人大禮包一份,關注微信公衆號,後臺回覆:“CSDN” 即可獲取!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章