誰說菜鳥不會數據分析(1)

一. 常用指標和術語

  1. 平均數:將總體內各單位的數量差異抽象化,代表總體的一般水平,掩蓋了總體各單位的差異。
  2. 絕對數與相對數:從業務角度看,絕對數就是數量,相對數就是質量。絕對數反應客觀現象總體在一定時間、地點條件下的總規模、總水平;相對數是指由兩個有聯繫的指標對比計算而得到的數值。
  3. 百分比與百分點:百分比表示一個數是另一個數的百分之幾;百分點表示不同時期以百分數的形式表示的相對指標的變動幅度
  4. 頻率與頻數:頻數是指個別數據重複的個數,頻率是指每組類別次數與總次數的比值。
  5. 比例與比率:比例是指總體中各部分的數值佔全部數值的比值;比率是指不同類別數值之間的對比。
  6. 倍數與番數:倍數是指一個數除以另一個數所得的商;番數表示原來數量的2的N次方倍(翻了一番就是2倍的意思)
  7. 同比與環比:同比是指與歷史同期進行比較得到的數值,反應事物發展的相對情況;環比是指與前一個統計期進行比較得到的數值,主要反應事物逐期發展的情況。

二. 處理重複數據

方法一:函數法

COUNTIF函數:

  1. =COUNTIF(range, criteria) #範圍,計算條件
  2. =COUNTIF(A:A, A2) # 查找出A2條件重複的次數
  3. =COUNTIF(A$2:A9, A9) #查找A9之前重複了幾次,把所有爲1的記錄條提取就是非重複項

刪除重複數據:
在3號步驟之後,點擊排序或者通過自定義篩選,取出值爲1的記錄。

方法二:高級篩選法

數據->排序和篩選->高級->選擇篩選區域以及複製到的區域->勾選選擇不重複的記錄

方法三:條件格式法

選中區域->開始->條件格式->突出顯示單元格規則->重複值

方法四:數據透視表法

插入->數據透視表->選擇範圍以及透視表擺放的位置->拖拽篩選字段到行標籤->拖拽篩選字段到值

方法五:刪除重複數據

數據->數據工具->刪除重複數據

三. 處理數據缺失

  1. 查找空值位置:

    方法一:定位輸入

    Ctrl+G or 開始->編輯->查找和選擇->定位條件->勾選空值

    方法二:以錯誤標識符出現的缺失值-查找替換

    Ctrl+F 查找 “#DIV/0!”
    Ctrl+H 替換 “0”

  2. 處理缺失值:
    (1). 樣本平均值
    (2). 統計模型計算出來的值
    (3). 刪除記錄
    (4). 在分析中看情況刪除

四. 檢查數據邏輯錯誤

  1. 利用IF函數
    IF(logical_test, value_if_true, value_if_false) # if條件判斷,爲真應該返回值,爲假應該返回值
  2. 利用條件格式
    選中區域->開始->條件格式->突出顯示單元格規則->其他規則->使用公式確定要設置格式的單元格。
    OR(logical1, [ logical2 ], … )[ =FALSE ] #logical1, logical2滿足1個結果就爲false
    AND(logical1, [ logical2 ], … )

五. 數據加工

  1. 字段分列
    (1). 數據->數據工具->分列
    (2). LEFT(text, [num_chars]) #得到字符串左邊指定個數的字符
    (3). RIGHT(text, [num_chars]) #得到字符串右邊指定個數的字符
  2. 字段合併
    (1). CONCATENATE(text1, text2, …) #將文本連接
    (2). & #將文本與數字連接需要把數字嵌套在TEXT()
  3. 字段匹配
    VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章