一、數據分析方法論
營銷方面:4P、用戶使用行爲、STP理論、SWOT
管理方面的理論模型:PEST、5W2H、時間管理、生命週期、邏輯樹、金字塔、SMART原則等
PEST(宏觀環境分析) | |||
P(political) | 政治環境(社會性質、執政黨性質、方針、政策、法令) 政治經濟體制、財政稅收政策、產業政策等 | ||
E(economic) | 經濟環境 | 宏觀 | GDP及其增長率、進出口總額、利率、稅率、通貨膨脹率、 |
微觀 | 消費價格指數、居民可支配收入、失業率、勞動生產率 | ||
S(social) | 社會環境(人口、性別比例、出生率和死亡率、種族結構、生活方式、教育狀況、城市特點、宗教信仰等) | ||
T(technological) | 技術環境(新技術的發明和發展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商品化速度、國家重點支持項目、國家投入的研發費用、專利個數和保護情況等) |
v PEST——行業分析
v 5W2H——用戶行爲分析、業務問題專題分析
Why+what+who+when+where
How+how much
v 邏輯樹——業務問題專題分析
要素化:相同問題總結歸納成要素
框架化:要素組織成框架,不重不漏
關聯化:框架內的各要素保持必要的相互關係,簡單不孤立
v 4P——可瞭解公司的整體運營情況
產品(有形產品、人員、組織、服務等)、
價格(需求、成本、競爭)、
渠道(生產到用戶中間的各個環節)、
促銷(廣告、宣傳推廣、人員推銷、銷售促進)
v 用戶行爲理論——用戶行爲分析
用戶使用行爲的完整過程:
二、數據處理
1.數據清洗
v 清除不必要的重複數據
(1)Excel中的方法
Ø Countif(區域,條件)
編號 | 重複標記 | 第二次重複標記 |
A667708 | 1 | 1 |
A310882 | 1 | 1 |
A520304 | 1 | 1 |
A356517 | 1 | 1 |
A776477 | 2 | 1 |
A466074 | 3 | 1 |
A466074 | 3 | 2 |
A466074 | 3 | 3 |
A776477 | 2 | 2 |
A218912 | 1 | 1 |
Ø 利用excel的高級篩選功能
選擇待篩選數據,‘數據’—排序和篩選中’高級’—勾選‘選擇不重複的記錄’
Ø 條件格式法
選中待篩選數據,‘條件格式’—‘突出顯示單元格規則’—‘重複值’
Ø 數據表透視法
選中待篩選數據,分別拖至‘行’和‘數值’
(2)sql中
select Email from Person where Id in (select Id from Person group by Email having count(*)>=2)
(3)刪除重複數據
Ø Sql
delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)
Ø Excel
選中待篩選數據,‘數據’—‘刪除重複項’
v 填充缺失的數據
平均值/刪除/模型訓練出的數據/保留缺失記錄(樣本大,缺失佔比小)
(1)EXCEL
Ctrl+G 定位空值
Ctrl+Enter 不連續區域中同時輸入同一個數據或公式
查找和替換
v 檢測邏輯錯誤的數據
Excel中:
If+countif
條件格式:標出邏輯錯誤的數據
or(邏輯值1,邏輯值2,...)
and(邏輯值1,邏輯值2,...)
2. 數據加工
v 數據抽取
主要工作:
Ø 合併字段
& 運算符
Concatenate(text1,text2,,text3,,text4......)
Text(text,格式)連接文本與數字時,指定數字的顯示格式
Ø 截取部分字段(字段分列)
Excel中的分列
Ø 字段匹配
Vlookup(要查找的vlaue,單個區域期中第一列必須是要查找的值area,希望匹配的列序號,近似匹配1精確匹配0)
精確匹配就是指值必須相等
近似匹配指在待查找區域area的第一列找接近又不大於area的值
v 數據計算
加減乘除、自動求和、求平均值、
日期的加減法:
Today() | 返回當前時間 | 2018/4/7 |
now() | 返回當前時間 | 2018/4/7 9:55 |
Ctrl+; | 返回當前時間 | 2018/4/7 |
Date(year,month,day) | 返回指定日期(可用來進行加減) | =DATE(2017,2,8) 2017/2/8 =DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10) 2027/8/18(比上一個多了10年,6個月,10天)
|
Datedif(起始日子,結束日期,unit) | 返回兩個日期之間的年/月/日間隔數 Unit取值: Y:相差年份 M:相差月份 D:相差天數 YM:相差月份(忽略了年份和天數) MD:相差天數(忽略了年份和月份) YD:相差天數(忽略了年份) | =DATEDIF(G6,H6,"Y")&"年" 10年 =DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天數)" 10天(忽略年份和月份的天數) =DATEDIF(G6,H6,"YM")&"月(忽略年份和天數)" 6月(忽略年份和天數) =DATEDIF(G6,H6,"YD")&"天(忽略年份天數)" 191天(忽略年份天數) =DATEDIF(G6,H6,"D")&"天" 3843天 |
v 數據分組
vlookup
v 數據轉換
‘選擇性粘貼’—‘轉置’
多選轉化爲0-1
=IF(ISNUMBER(HLOOKUP(find_value,area,列序號,0/1)),1,0)
=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)
v 數據抽樣
Rand()函數
返回(0,1)的均勻分佈隨機數,每次計算工作表時都將返回一個新的數值
三 數據分析方法
數據分析的作用:現狀分析、原因分析、預測分析
三大作用對應的分析思路:對比、細分、預測