目錄
1 定義目標
例如:
針對餐飲行業的數據挖掘應用:
01 實現動態菜品的只能推薦,幫助顧客快速發現自己感興趣的菜品,實現餐飲消費者和餐飲企業的雙贏
02 對餐飲客戶進行細分,瞭解不同價值的客戶採取不同的營銷策略,將有限的資源投放到最有價值的客戶身上,實現精準話營銷。
03 基於餐飲大數據,優化新店選址,並對新店所在位置的潛在顧客口味偏好進行分析,以便進行菜市調整。
2 數據採集
2.1 抽取數據的標準
01 相關性
02 可靠性
03 有效性
進行數據取樣,一定要嚴格把手質量關。
2.2 衡量數據的質量標準
01 資料完整無缺,各類指標項齊全
02 數據準確無誤,反映的都是正常狀態下的水平,而不是異常狀態下的水平。
# 隨機抽樣
在採用隨機抽樣的方式時,數據集中的每一組觀測值都有相同的被抽樣的概率。例如:按照10%的比例對一個數據集進行隨機抽樣,每一組觀測值都有10% 的機會被抽到。
# 等距抽樣:
如按照5%的比例對一個有100組觀測值的數據集進行燈具抽樣,則有100/5=20,等距抽樣取20、40、60、80、100這5組觀測值
# 分層抽樣:
將總體樣本分成若干層次。在每個層次中的觀測值都有具有被選中的概率,但是不同的層次可設定不同的概率。
# 分類抽樣
分類抽樣依據某種屬性的取值來選擇子集,例如:客戶名稱、地域
2.3 基於挖掘目標需要的數據源
客戶關係管理系統
前廳關係管理系統
後廚管理系統
財務管理系統
物資管理系統
2.4 在這些數據源中抽取用於建模的主要內容
01 參營企業信息:名稱、未知、規模、聯繫方式、部門、人員、角色
02 餐飲客戶信息:姓名、聯繫方式、消費時間、消費金額
03 餐飲企業菜品信息: 菜品名稱、菜品單價、菜品成本、所屬部門等
04 菜品銷量數據: 菜品名稱、
銷售日期、銷售金額、銷售份數
05 原材料供應商資料及商品數據:
供應商姓名、聯繫方式、商品名稱、客戶評價信息
06 促銷活動數據:促銷日期、促銷內容、促銷描述
07 外部數據:如天氣、節假日、競爭對手以及周邊商業氛圍
3、數據探索
3.1 數據質量分析
檢查原始數據中是否有髒數據
髒數據類型包括:
缺失值、
異常值、
不一致的值、
重複數據以及含有特殊符號(如#、¥、*)
3.2 數據特徵分析
01 分佈分析
02 對比分析
03 統計量分析
集中分析和離中分析
集中:均值、中位數、衆數
離中:極差、標準差、變異係數、四分位差距
04 週期性分析
05 貢獻度分析(2/8)
06 相關性分析
3.3 主要數據探索函數
01 基本統計函數
基本特徵函數用於計算數據的均值、方差、標準差、分位數、相關係數和協方差
sum
mean()
var() 計算數據樣本的標準差
corr()計算數據樣本的spearman(pearson)先關係數矩陣
cov()計算數據樣本的協方差矩陣
skew() 樣本值得偏度(三階矩)
kurt()樣本值的峯度(四階矩)
describe() 給出樣本的基本描述
02 拓寬統計函數
主要有累計計算(cum)和滾動計算(pd.rolling_)
cummax() 以此給出前1,2,,,,n個數的最大值
rolling_sum() 計算數據樣本的綜合(按列計算)等等
03 統計作圖函數
通過統計作圖函數繪製的圖表可以直觀地反映出數據及統計量的性質及其內在規律
例如:
盒圖可以表示多個樣本的均值
誤差條形圖能同時顯示下限誤差和上限誤差,最小二乘法擬合曲線圖能分析兩變量間的關係
plot()繪製二維圖,折線圖
pie() 餅形圖
hist() 二位條形直方圖
boxplot() 樣本數據的箱型圖
plot(logy=true) 繪製y周的對數圖形
plot(yerr=erro) 繪製誤差條形圖
4 數據預處理
4.1 數據清洗
01 缺失值處理
02 異常值處理
4.2 數據集成
01 實體識別
同名異義、 異名同義、 單位不統一
02 冗餘性識別
同一屬性多次出現、 同一屬性命名不一致導致重複
4.3 數據變換
01 簡單的函數變換
簡單函數變換是對原始數據進行某些函數變換,常用的變換包括
## 平方、開方、取對數、差分運算等
02 規範化
0-1標準化、零-均值規範化、Z標準化
03 連續屬性離散化
一些數據挖掘算法,特別是某些分類算法(ID3,Apriori算法),要求數據是分類屬性形式,這樣,常常需要將連續屬性離散化
常用方法:等寬、等頻、聚類
04 屬性構造
在數據挖掘的過程中,爲了提取更有用的信息,挖掘更深層次的模式,提高挖掘結果的精度,我們需要利用已有的屬性集構造出新的屬性,並加入到現有的屬性集合中。
比如:進行竊電診斷建模的時候;增加線損率
05 小波變換
小波分析的理論和方法在信號處理、圖像處理、語音處理、模式識別、量子物理等=領域得到越來越廣泛的應用。
4.4 數據規約
01 屬性規約
屬性規約通過屬性合併來創建新屬性維數,或者直接通過刪除不相關的屬性來減少數據維數,從而提高數據挖掘的效率、降低計算成本
02 數值規約
數值規約是指通過選擇替代的、較小的數據來減少數據量,,包括有參數方法和無參數方法兩類。
5 構建模型
樣本抽取完成並經過預處理後,接下來要考慮的問題是:
本次建模屬於數據挖掘應用中的哪類問題(分類、聚類、關聯規則、時序模式或只能推薦)選用那種算法進行模型構建
這是核心環節
6 模型發佈