《誰說菜鳥不會數據分析（入門篇）》總結

原創

brave_jcc

2018-08-27 04:12

一、數據分析方法論

營銷方面：4P、用戶使用行爲、STP理論、SWOT

管理方面的理論模型：PEST、5W2H、時間管理、生命週期、邏輯樹、金字塔、SMART原則等

PEST（宏觀環境分析）
P(political)	政治環境（社會性質、執政黨性質、方針、政策、法令）政治經濟體制、財政稅收政策、產業政策等
E(economic)	經濟環境	宏觀	GDP及其增長率、進出口總額、利率、稅率、通貨膨脹率、
		微觀	消費價格指數、居民可支配收入、失業率、勞動生產率
S(social)	社會環境（人口、性別比例、出生率和死亡率、種族結構、生活方式、教育狀況、城市特點、宗教信仰等）
T(technological)	技術環境（新技術的發明和發展、折舊和報廢速度、技術更新速度、技術傳播速度、技術商品化速度、國家重點支持項目、國家投入的研發費用、專利個數和保護情況等）

v PEST——行業分析

v 5W2H——用戶行爲分析、業務問題專題分析

Why+what+who+when+where

How+how much

v 邏輯樹——業務問題專題分析

要素化：相同問題總結歸納成要素

框架化：要素組織成框架，不重不漏

關聯化：框架內的各要素保持必要的相互關係，簡單不孤立

v 4P——可瞭解公司的整體運營情況

產品（有形產品、人員、組織、服務等）、

價格（需求、成本、競爭）、

渠道（生產到用戶中間的各個環節）、

促銷（廣告、宣傳推廣、人員推銷、銷售促進）

v 用戶行爲理論——用戶行爲分析

用戶使用行爲的完整過程：

二、數據處理

1.數據清洗

v 清除不必要的重複數據

（1）Excel中的方法

Ø Countif(區域，條件）

編號	重複標記	第二次重複標記
A667708	1	1
A310882	1	1
A520304	1	1
A356517	1	1
A776477	2	1
A466074	3	1
A466074	3	2
A466074	3	3
A776477	2	2
A218912	1	1

Ø 利用excel的高級篩選功能

選擇待篩選數據，‘數據’—排序和篩選中’高級’—勾選‘選擇不重複的記錄’

Ø 條件格式法

選中待篩選數據，‘條件格式’—‘突出顯示單元格規則’—‘重複值’

Ø 數據表透視法

選中待篩選數據，分別拖至‘行’和‘數值’

（2）sql中

select Email from Person where Id in (select Id from Person group by Email having count(*)>=2)

（3）刪除重複數據

Ø Sql

delete from person where Id not in (select * from (select min(Id) as Id from Person group by Email having count(*)>=1) a)

Ø Excel

選中待篩選數據，‘數據’—‘刪除重複項’

v 填充缺失的數據

平均值/刪除/模型訓練出的數據/保留缺失記錄（樣本大，缺失佔比小）

（1）EXCEL

Ctrl+G 定位空值

Ctrl+Enter 不連續區域中同時輸入同一個數據或公式

查找和替換

v 檢測邏輯錯誤的數據

Excel中：

If+countif

條件格式：標出邏輯錯誤的數據

or（邏輯值1，邏輯值2，...）

and（邏輯值1，邏輯值2，...）

2. 數據加工

v 數據抽取

主要工作：

Ø 合併字段

& 運算符

Concatenate(text1，text2，,text3，,text4......)

Text（text,格式）連接文本與數字時，指定數字的顯示格式

Ø 截取部分字段（字段分列）

Excel中的分列

Ø 字段匹配

Vlookup(要查找的vlaue，單個區域期中第一列必須是要查找的值area，希望匹配的列序號，近似匹配1精確匹配0)

精確匹配就是指值必須相等

近似匹配指在待查找區域area的第一列找接近又不大於area的值

v 數據計算

加減乘除、自動求和、求平均值、

日期的加減法：

Today()	返回當前時間	2018/4/7
now()	返回當前時間	2018/4/7 9:55
Ctrl+;	返回當前時間	2018/4/7
Date(year,month,day)	返回指定日期（可用來進行加減）	=DATE(2017,2,8) 2017/2/8 =DATE(YEAR(G6)+10,MONTH(G6)+6,DAY(G6)+10) 2027/8/18（比上一個多了10年，6個月，10天）
Datedif(起始日子，結束日期，unit)	返回兩個日期之間的年/月/日間隔數 Unit取值： Y:相差年份 M：相差月份 D:相差天數 YM:相差月份（忽略了年份和天數） MD:相差天數（忽略了年份和月份） YD:相差天數（忽略了年份）	=DATEDIF(G6,H6,"Y")&"年" 10年 =DATEDIF(G6,H6,"MD")&"天（忽略年份和月份的天數）" 10天（忽略年份和月份的天數） =DATEDIF(G6,H6,"YM")&"月（忽略年份和天數）" 6月（忽略年份和天數） =DATEDIF(G6,H6,"YD")&"天（忽略年份天數）" 191天（忽略年份天數） =DATEDIF(G6,H6,"D")&"天" 3843天

v 數據分組

vlookup

v 數據轉換

‘選擇性粘貼’—‘轉置’

多選轉化爲0-1

=IF(ISNUMBER(HLOOKUP(find_value,area,列序號,0/1)),1,0)

=IF(ISNUMBER(SEARCH(find_value,with_text)),1,0)

v 數據抽樣

Rand()函數

返回（0,1）的均勻分佈隨機數，每次計算工作表時都將返回一個新的數值

三數據分析方法

數據分析的作用：現狀分析、原因分析、預測分析

三大作用對應的分析思路：對比、細分、預測

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《誰說菜鳥不會數據分析（入門篇）》總結

一、數據分析方法論

二、數據處理

1.數據清洗

2. 數據加工

三數據分析方法

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

中外程序員到底有啥區別？

Python數據分析與挖掘實戰（5章）

python包：pandas

C++文件/流

一、什麼是Docker

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

排序和搜索（一）——python實現順序查找

排序和搜索（五）——選擇排序的python實現

python學習筆記——numpy

python算法分析---查找和排序總結

排序和搜索（二）——python實現二分查找

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

《誰說菜鳥不會數據分析（入門篇）》總結

一、數據分析方法論

二、數據處理

1.數據清洗

2. 數據加工

三 數據分析方法

三數據分析方法