一、數據處理的內容
數據處理的內容主要有以下兩項:
1.數據清洗。將多餘重複的數據篩選出來,並剔除;將缺失的數據補足,將錯誤的數據糾正或刪除。
2.數據加工。對清洗過後的數據進行字段的信息提取、計算、分組、轉換等處理。
二、數據清洗
1.重複數據的處理
第一步,找出重複數據。
方法1:函數法
COUNTIF(range,criteria),對區域中滿足單個指定條件的單元格進行計數。
- range:要計數的單元格範圍。
- criteria:計算條件,可以爲數字、表達式或文本,如32、>32或“三十二”。
在B2單元格輸入=COUNTIF(A:A,A2)
,計算每一個員工編號出現的次數。
在C2單元格輸入=COUNTIF(A$2:A2,A2)
,計算出現了兩次及以上的重複項。以C9對應的編號爲例,3表示從A1~A9,該編號是第3次出現。
方法2:高級篩選法
方法3:條件格式法
方法4:數據透視表
用數據透視表統計各項數據出現的頻次,出現2次及以上爲重複項。
第二步,刪除重複數據。
方法1:通過菜單操作刪除重複值
方法2:通過排序刪除重複值
選擇篩選功能,升序排序C列數據,刪除大於1的數值即可。
方法3:通過篩選刪除重複值
直接將篩選出來的重複值刪除即可。
2.缺失數據的處理
在Excel中,缺失值一般以空值或錯誤標識符標記。那麼,如何找出缺失值?
方法1:定位輸入
適用情況:缺失值以空白單元格形式出現。
彈出定位對話框:
1.Ctrl+G組合鍵
2.開始–>編輯–>定位條件
如何處理缺失值?
方法1:用一個樣本統計量的值代替缺失值。常用樣本均值代替缺失值。
方法2:用一個統計模型計算出來的值代替缺失值。常用的模型有迴歸模型、判別模型等,需藉助數據分析軟件。
方法3:刪除包含缺失值的數據記錄。
方法4:保留包含缺失值的數據記錄,分析時按需排除缺失值。
常用做法是,如果樣本量比較大,一般採用定位查找功能一次性選出所有缺失值,再用Ctrl+Enter組合鍵填充樣本均值。
方法2:查找替換
適用情況:缺失值以錯誤標識符形式出現。
以查找錯誤標識符“#DIV/0!”爲例:
1.選中所有數據區域,按Ctrl+H組合鍵,彈出“查找和替換”對話框。
2.在“查找內容”中輸入要搜索的文本或數字,在“替換爲”中輸入要替換成的內容,再單擊“全部替換”按鈕。
3.檢查數據邏輯錯誤
以員工滿意度問卷調查爲例,錯誤數據出現的情況有:
1.被調查對象輸入的選項不符合要求,比如,選擇的選項超過了3個。
2.錄入錯誤,比如,錄入的數據出現了0、1之外的數據。
如何檢查錯誤?
方法1:用IF函數檢查錯誤情況1.
COUNT,計數。
COUNTIF,對滿足指定條件的單元格進行計數。比如,COUNTIF(B3:H3,"<>0")
表示“對B3:H3區域中不等於0的單元格進行計數”。
IF,判斷邏輯值的真假。比如,IF(COUNTIF(B3:H3,"<>0")>3,"錯誤","正確")
表示“如果錄入的選項超過3個,則單元格顯示’錯誤’,否則,顯示’正確’”。
方法2:用條件格式檢查錯誤情況2.
OR,或,至少一個爲真,就範圍TRUE。
AND,和,所有參數都爲真,才返回TRUE。
三、數據加工
1.數據抽取
數據抽取,指保留某些字段的部分信息,組合成一個新字段。
1.字段分列,截取某一字段的部分信息;
2.字段合併,將某幾個字段合併爲一個新字段;
3.字段匹配,將原數據表中沒有但其他表中有的字段匹配起來。
字段分列
方法1:菜單法。
方法2:函數法。
LEFT,截取字符串左邊指定個數的字符。
RIGHT,截取字符串右邊指定個數的字符。
字段合併
組合文本和數字的方式有:
1.CONCATENATE函數,如CONCATENATE(A2,"遲到",B2,"次")
。
2.&運算符,如A2&“遲到”&B2&“次”
。
**作用:**在使用連接運算符連接數字和文本時,控制數字的顯示方式。如果不用TEXT函數,則默認顯示引用單元格的基本數據。比如,若單元格中數據爲10%,不使用TEXT函數,合併後的數據則顯示爲0.1。
**注意:**合併數字和文本後,數據類型爲文本,不能做數學運算。
字段匹配
如何將員工職位表中的職務信息提取到員工個人信息(銷售部)表中?
1.在“員工個人信息(銷售部)”表中F2單元格中輸入=VLOOKUP(B2,[員工職位表.xlsx]Sheet1!$B$1:$D$11,3,0)
。
2.複製單元格F2到F3:F7,完成數據提取。
作用:在表格的首列查找指定的數據,並返回指定的數據所在行中的指定列出的單元格內容。
- lookup_value:要在表中第一列查找的值,參數可以是值或引用。
- table_array:包含數據的單元格區域,可以是絕對區域或區域名稱的引用。
- col_index_num:1,表示返回匹配值的列號,即返回table_array第一列中的值;2,表示返回匹配值的列號,即返回table_array第二列中的值,以此類推。
- range_lookup:近似匹配1,精確匹配0,常用0.
注意:table_array第一列的值必須是要查找的值(lookup_value),否則會出現錯誤標識“#N/A”。出現“#N/A”其他情況還有:
1.數據存在空格,可以用TRIM函數批量刪除空格。
2.數據類型或格式不一致。
2.數據計算
2.1 簡單計算
簡單計算,能通過加減乘除計算出來的字段。
如下圖,銷售額=銷售數量*單價
,總銷售額=∑各產品銷售額
。
2.2 函數計算
1.平均值與總和
AVERAGE():求平均值。
SUM():求和。
2.日期的加減法
輸入當前系統時間/日期;
日期 | 公式 | 快捷鍵 |
---|---|---|
2020/1/1 | =TODAY() | Ctrl+; |
13:39 | Ctrl+Shift+; | |
2009/1/1 | =NOW() | 1.Ctrl+; 2.按空格鍵 3.Ctrl+Shift+; |
DATE(year,month,day),返回指定日期。
YEAR(),返回某日期對應的年份。
MONTH(),返回以序列號表示的日其中的月份,用整數1~12表示。
DAY(),返回以序列號表示的日期的天數,用整數1~31表示。
DATEIF(start_date,end_date,unit),返回兩個日期之間的年/月/日間隔數。unit有Y/M/D/YM/YD六種形式。
3.數據轉換
3.1 數據表的行列互換
方法1:選擇性粘貼。
方法2:Ctrl+Alt+V
3.2 多選題幾種錄入方式之間的轉換
多選題的兩種錄入方式:
1.二分法,各選項用0和1表示該選項是否被錄入。
2.多重分類法,直接錄入選項的額代碼。只能在SPSS裏分析。
下圖左邊多重分類法中的“選項一”“選項二”“選項三”是多選題中選擇的三個選項,比如,被調查者甲選的是A、B、C,那麼B2:D2的單元格中分別輸入1,2,3。
VLOOKUP
,按列查找。
HLOOKUP(lookup_value,table_array,col_index_num,range_lookup)
,在表格的首行查找指定的數據,並返回指定的數據所在列中的指定行處的單元格內容。比如,HLOOKUP(1,B5:D5,1,0)
表示“在B5:D5
區域的第一行中查找數值1,找到數值1所在的列,返回該列對應的單元格區域的第一行數據,並精確匹配,否則,返回’#N/A’”。
多重分類法轉換爲二分法錄入數據,用SEARCH函數代替HLOOKUP函數。
函數/參數 | 含義 |
---|---|
SEARCH(find_text,within_text,start_num) |
返回指定的字符串在原始字符串中首次出現的位置 |
find_text |
要查找的文本字符串 |
within_text |
要在哪一個字符串查找 |
start_num |
從within_text 的第幾個字符開始查找 |
例子如下,SEARCH("1",A4)
表示在A4單元格的字符串中查找1。
4.數據分組
分組對應表如下圖右表所示,用來確定分組的範圍和標準。“閾值”,是每組覆蓋的數值範圍中的下限。“分組”,是每一組的組名。“備註”,是分組標準。
使用VLOOKUP實現數據分組,省略了最後一個參數range_lookup,默認近似匹配。這樣,單元格B2公式不是在D列中查找0,而是查找接近A2,且不大於A2的值。“最接近且不大於”,如A5(=5.5),閾值中最接近A5且小於或等於A5的值是D2(=5),則對應的E2就是A5的分組。
四、數據抽樣
普查,對總體中的對象都進行觀察研究。
抽樣調查,從總體中隨機抽取部分樣本進行分析。
RAND()
,只能返回0~1之間的數。如要生成a ~ b之間的隨機數,用公式=RAND()*(b-a)+a
。
假設B列有表示100個人的編號(無表頭),要隨機抽取30個人,步驟如下:
1.對100個人生成不重複的序號,A1=1
,A2=A1+1
,……,A100=A99+1
。
2.隨機生成30個1~100的隨機數,將公式=INT(RAND()*100
複製到D列的30個單元格中。
3.參照A、B列,將D列隨機數對應的編號匹配到E列中,將公式=VLOOKUP(D1,$A:$B,2,0)
複製到E列的30個單元格中。
4.對抽取出來的編號去重,重複上述步驟,直到抽到了30個編號不重複的人。