一. 常用指標和術語
- 平均數:將總體內各單位的數量差異抽象化,代表總體的一般水平,掩蓋了總體各單位的差異。
- 絕對數與相對數:從業務角度看,絕對數就是數量,相對數就是質量。絕對數反應客觀現象總體在一定時間、地點條件下的總規模、總水平;相對數是指由兩個有聯繫的指標對比計算而得到的數值。
- 百分比與百分點:百分比表示一個數是另一個數的百分之幾;百分點表示不同時期以百分數的形式表示的相對指標的變動幅度。
- 頻率與頻數:頻數是指個別數據重複的個數,頻率是指每組類別次數與總次數的比值。
- 比例與比率:比例是指總體中各部分的數值佔全部數值的比值;比率是指不同類別數值之間的對比。
- 倍數與番數:倍數是指一個數除以另一個數所得的商;番數表示原來數量的2的N次方倍(翻了一番就是2倍的意思)
- 同比與環比:同比是指與歷史同期進行比較得到的數值,反應事物發展的相對情況;環比是指與前一個統計期進行比較得到的數值,主要反應事物逐期發展的情況。
二. 處理重複數據
方法一:函數法
COUNTIF函數:
- =COUNTIF(range, criteria) #範圍,計算條件
- =COUNTIF(A:A, A2) # 查找出A2條件重複的次數
- =COUNTIF(A$2:A9, A9) #查找A9之前重複了幾次,把所有爲1的記錄條提取就是非重複項
刪除重複數據:
在3號步驟之後,點擊排序或者通過自定義篩選,取出值爲1的記錄。
方法二:高級篩選法
數據->排序和篩選->高級->選擇篩選區域以及複製到的區域->勾選選擇不重複的記錄
方法三:條件格式法
選中區域->開始->條件格式->突出顯示單元格規則->重複值
方法四:數據透視表法
插入->數據透視表->選擇範圍以及透視表擺放的位置->拖拽篩選字段到行標籤->拖拽篩選字段到值
方法五:刪除重複數據
數據->數據工具->刪除重複數據
三. 處理數據缺失
-
查找空值位置:
方法一:定位輸入
Ctrl+G or 開始->編輯->查找和選擇->定位條件->勾選空值
方法二:以錯誤標識符出現的缺失值-查找替換
Ctrl+F 查找 “#DIV/0!”
Ctrl+H 替換 “0” -
處理缺失值:
(1). 樣本平均值
(2). 統計模型計算出來的值
(3). 刪除記錄
(4). 在分析中看情況刪除
四. 檢查數據邏輯錯誤
- 利用IF函數
IF(logical_test, value_if_true, value_if_false) # if條件判斷,爲真應該返回值,爲假應該返回值 - 利用條件格式
選中區域->開始->條件格式->突出顯示單元格規則->其他規則->使用公式確定要設置格式的單元格。
OR(logical1, [ logical2 ], … )[ =FALSE ] #logical1, logical2滿足1個結果就爲false
AND(logical1, [ logical2 ], … )
五. 數據加工
- 字段分列
(1). 數據->數據工具->分列
(2). LEFT(text, [num_chars]) #得到字符串左邊指定個數的字符
(3). RIGHT(text, [num_chars]) #得到字符串右邊指定個數的字符 - 字段合併
(1). CONCATENATE(text1, text2, …) #將文本連接
(2). & #將文本與數字連接需要把數字嵌套在TEXT() - 字段匹配
VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)