《誰說菜鳥不會數據分析(入門篇)》總結

一、數據分析方法論

營銷方面:4P、用戶使用行爲、STP理論、SWOT

管理方面的理論模型:PEST5W2H、時間管理、生命週期、邏輯樹、金字塔、SMART原則等

PEST宏觀環境分析

P(political)

政治環境社會性質、執政黨性質、方針、政策、法令

政治經濟體制、財政稅收政策、產業政策等

E(economic)

經濟環境

宏觀

GDP及其增長率、進出口總額、利率、稅率、通貨膨脹率、

微觀

消費價格指數、居民可支配收入、失業率、勞動生產率

S(social)

社會環境(人口、性別比例、出生率和死亡率、種族結構、生活方式、教育狀況、城市特點、宗教信仰等)

T(technological)

技術環境(新技術的發明和發展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商品化速度、國家重點支持項目、國家投入的研發費用、專利個數和保護情況等)

v PEST——行業分析

v 5W2H——用戶行爲分析、業務問題專題分析

Why+what+who+when+where

How+how much

邏輯樹——業務問題專題分析

要素化:相同問題總結歸納成要素

框架化:要素組織成框架,不重不漏

關聯化:框架內的各要素保持必要的相互關係,簡單不孤立

v 4P——可瞭解公司的整體運營情況

產品(有形產品、人員、組織、服務等)、

價格(需求、成本、競爭)、

渠道(生產到用戶中間的各個環節)、

促銷(廣告、宣傳推廣、人員推銷、銷售促進)

用戶行爲理論——用戶行爲分析

用戶使用行爲的完整過程:

 

 

二、數據處理

1.數據清洗

清除不必要的重複數據

(1)Excel中的方法

Ø Countif(區域,條件)

編號

重複標記

第二次重複標記

A667708

1

1

A310882

1

1

A520304

1

1

A356517

1

1

A776477

2

1

A466074

3

1

A466074

3

2

A466074

3

3

A776477

2

2

A218912

1

1

Ø 利用excel的高級篩選功能

選擇待篩選數據,‘數據’—排序和篩選中’高級’—勾選‘選擇不重複的記錄’

Ø 條件格式法

選中待篩選數據,‘條件格式’—‘突出顯示單元格規則’—‘重複值’

Ø 數據表透視法

選中待篩選數據,分別拖至‘行’和‘數值’

(2)sql

select Email from Person where Id  in (select Id from Person group by Email having count(*)>=2)

(3)刪除重複數據

Ø Sql

delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)

Ø Excel

選中待篩選數據,‘數據’—‘刪除重複項’

填充缺失的數據

平均值/刪除/模型訓練出的數據/保留缺失記錄(樣本大,缺失佔比小)

(1)EXCEL

Ctrl+G 定位空值

Ctrl+Enter 不連續區域中同時輸入同一個數據或公式

查找和替換

檢測邏輯錯誤的數據

Excel中:

If+countif

條件格式:標出邏輯錯誤的數據

or(邏輯值1,邏輯值2...

and(邏輯值1,邏輯值2...

2. 數據加工

數據抽取

主要工作:

Ø 合併字段

& 運算符

Concatenate(text1text2,text3,text4......)

Texttext,格式)連接文本與數字時,指定數字的顯示格式

Ø 截取部分字段(字段分列)

Excel中的分列

Ø 字段匹配

Vlookup(要查找的vlaue,單個區域期中第一列必須是要查找的值area,希望匹配的列序號,近似匹配1精確匹配0)

精確匹配就是指值必須相等

近似匹配指在待查找區域area的第一列找接近又不大於area的值

數據計算

加減乘除、自動求和、求平均值、

日期的加減法:

Today()

返回當前時間

2018/4/7

now()

返回當前時間

2018/4/7 9:55

Ctrl+;

返回當前時間

2018/4/7

Date(year,month,day)

返回指定日期(可用來進行加減)

=DATE(2017,2,8)

2017/2/8

=DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10)

2027/8/18(比上一個多了10年,6個月,10天)

 

Datedif(起始日子,結束日期,unit)

返回兩個日期之間的年//日間隔數

Unit取值:

Y:相差年份

M:相差月份

D:相差天數

YM:相差月份(忽略了年份和天數)

MD:相差天數(忽略了年份和月份)

YD:相差天數(忽略了年份)

=DATEDIF(G6,H6,"Y")&""

10

=DATEDIF(G6,H6,"MD")&"天(忽略年份和月份的天數)"

10天(忽略年份和月份的天數)

=DATEDIF(G6,H6,"YM")&"月(忽略年份和天數)"

6月(忽略年份和天數)

=DATEDIF(G6,H6,"YD")&"天(忽略年份天數)"

191天(忽略年份天數)

=DATEDIF(G6,H6,"D")&""

3843

 數據分組

vlookup

數據轉換

‘選擇性粘貼’—‘轉置’

多選轉化爲0-1

=IF(ISNUMBER(HLOOKUP(find_value,area,列序號,0/1)),1,0)

=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)

數據抽樣

Rand()函數

返回(0,1)的均勻分佈隨機數,每次計算工作表時都將返回一個新的數值

數據分析方法

數據分析的作用:現狀分析、原因分析、預測分析

三大作用對應的分析思路:對比、細分、預測

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章