整理與《誰說菜鳥不會數據分析》
一、重複數據處理
1、COUNTIF函數
2、高級篩選法
3、條件格式法
4、數據透視表
5、刪除重複值
二、缺失數據處理
Ctrl G 定位 + Ctrl Enter
1、用一個樣本統計量的值代替缺失值:樣本均值
2、統計模型計算出來的值代替缺失值:常用的模型 迴歸模型、判別模型等
3、直接刪除缺失值
4、將缺失值保留,僅僅需要的時候排除
三、檢查數據邏輯錯誤
1、利用IF函數檢查錯誤
IF(logical_test,valur_if_true,value_if_false):執行語句
IF(countif(B3:H3,"<>0")>3),"錯誤","正確" 表示如果錄入的選項(非0的數據)超過3個,則單元格顯示錯誤,否則,顯示正確。
2、利用條件格式標記錯誤
四、數據加工
1、數據抽取
1、1 字段分列
- 1、1菜單法
- 1、2函數法 left right
1、2 字段合併
concatenate(text1,text2...)
1、3 字段匹配
vlookup(lookup_value,table_array,col_index_num,range_lookup)
lookup_value: 兩個表中的相同字段並且是唯一的,比如
爲學生成績表添加學生的年級
學生信息表 (id,age,sex,nianji )
學生成績表(id,yuwen,shuxue,nianji)
此時lookup字段就是學生成績表id
table_array :學生信息表全部數據,,id必須在第一列,而年級是要查找的值
col_index_num:4 ,要查找的值位於學生信息表的第四列
range_lookup: 0表示精準匹配,1表示模糊匹配
2、數據計算
函數計算(平均值求和,日期加減date函數,dataif函數,now函數,today函數)
3、數據分組
4、數據轉換
5、數據抽樣