Excel:數據處理

一、數據處理的內容

數據處理的內容主要有以下兩項:
1.數據清洗。將多餘重複的數據篩選出來,並剔除;將缺失的數據補足,將錯誤的數據糾正或刪除。
2.數據加工。對清洗過後的數據進行字段的信息提取、計算、分組、轉換等處理。

二、數據清洗

1.重複數據的處理

第一步,找出重複數據

方法1:函數法
COUNTIF(range,criteria),對區域中滿足單個指定條件的單元格進行計數。

  • range:要計數的單元格範圍。
  • criteria:計算條件,可以爲數字、表達式或文本,如32、>32或“三十二”。

在B2單元格輸入=COUNTIF(A:A,A2),計算每一個員工編號出現的次數。
在C2單元格輸入=COUNTIF(A$2:A2,A2),計算出現了兩次及以上的重複項。以C9對應的編號爲例,3表示從A1~A9,該編號是第3次出現。

方法2:高級篩選法

方法3:條件格式法

方法4:數據透視表

用數據透視表統計各項數據出現的頻次,出現2次及以上爲重複項。

第二步,刪除重複數據

方法1:通過菜單操作刪除重複值


方法2:通過排序刪除重複值

選擇篩選功能,升序排序C列數據,刪除大於1的數值即可。

方法3:通過篩選刪除重複值


直接將篩選出來的重複值刪除即可。

2.缺失數據的處理

在Excel中,缺失值一般以空值或錯誤標識符標記。那麼,如何找出缺失值?

方法1:定位輸入
適用情況:缺失值以空白單元格形式出現。

彈出定位對話框:
1.Ctrl+G組合鍵
2.開始–>編輯–>定位條件

如何處理缺失值?
方法1:用一個樣本統計量的值代替缺失值。常用樣本均值代替缺失值。
方法2:用一個統計模型計算出來的值代替缺失值。常用的模型有迴歸模型、判別模型等,需藉助數據分析軟件。
方法3:刪除包含缺失值的數據記錄。
方法4:保留包含缺失值的數據記錄,分析時按需排除缺失值。

常用做法是,如果樣本量比較大,一般採用定位查找功能一次性選出所有缺失值,再用Ctrl+Enter組合鍵填充樣本均值。

方法2:查找替換
適用情況:缺失值以錯誤標識符形式出現。

以查找錯誤標識符“#DIV/0!”爲例:
1.選中所有數據區域,按Ctrl+H組合鍵,彈出“查找和替換”對話框。
2.在“查找內容”中輸入要搜索的文本或數字,在“替換爲”中輸入要替換成的內容,再單擊“全部替換”按鈕。

3.檢查數據邏輯錯誤

以員工滿意度問卷調查爲例,錯誤數據出現的情況有:
1.被調查對象輸入的選項不符合要求,比如,選擇的選項超過了3個。
2.錄入錯誤,比如,錄入的數據出現了0、1之外的數據。

如何檢查錯誤?
方法1:用IF函數檢查錯誤情況1.

COUNT,計數。
COUNTIF,對滿足指定條件的單元格進行計數。比如,COUNTIF(B3:H3,"<>0")表示“對B3:H3區域中不等於0的單元格進行計數”。
IF,判斷邏輯值的真假。比如,IF(COUNTIF(B3:H3,"<>0")>3,"錯誤","正確")表示“如果錄入的選項超過3個,則單元格顯示’錯誤’,否則,顯示’正確’”。

方法2:用條件格式檢查錯誤情況2.

OR,或,至少一個爲真,就範圍TRUE。
AND,和,所有參數都爲真,才返回TRUE。

三、數據加工

1.數據抽取

數據抽取,指保留某些字段的部分信息,組合成一個新字段。
1.字段分列,截取某一字段的部分信息;
2.字段合併,將某幾個字段合併爲一個新字段;
3.字段匹配,將原數據表中沒有但其他表中有的字段匹配起來。

字段分列

方法1:菜單法。



方法2:函數法。

LEFT,截取字符串左邊指定個數的字符。
RIGHT,截取字符串右邊指定個數的字符。

字段合併

組合文本和數字的方式有:
1.CONCATENATE函數,如CONCATENATE(A2,"遲到",B2,"次")
2.&運算符,如A2&“遲到”&B2&“次”

TEXT函數

**作用:**在使用連接運算符連接數字和文本時,控制數字的顯示方式。如果不用TEXT函數,則默認顯示引用單元格的基本數據。比如,若單元格中數據爲10%,不使用TEXT函數,合併後的數據則顯示爲0.1。
**注意:**合併數字和文本後,數據類型爲文本,不能做數學運算。

字段匹配

如何將員工職位表中的職務信息提取到員工個人信息(銷售部)表中?
1.在“員工個人信息(銷售部)”表中F2單元格中輸入=VLOOKUP(B2,[員工職位表.xlsx]Sheet1!$B$1:$D$11,3,0)
2.複製單元格F2到F3:F7,完成數據提取。

VLOOKUP函數

作用:在表格的首列查找指定的數據,並返回指定的數據所在行中的指定列出的單元格內容。

  • lookup_value:要在表中第一列查找的值,參數可以是值或引用。
  • table_array:包含數據的單元格區域,可以是絕對區域或區域名稱的引用。
  • col_index_num:1,表示返回匹配值的列號,即返回table_array第一列中的值;2,表示返回匹配值的列號,即返回table_array第二列中的值,以此類推。
  • range_lookup:近似匹配1,精確匹配0,常用0.

注意:table_array第一列的值必須是要查找的值(lookup_value),否則會出現錯誤標識“#N/A”。出現“#N/A”其他情況還有:
1.數據存在空格,可以用TRIM函數批量刪除空格。
2.數據類型或格式不一致。

2.數據計算

2.1 簡單計算

簡單計算,能通過加減乘除計算出來的字段。

如下圖,銷售額=銷售數量*單價總銷售額=∑各產品銷售額

2.2 函數計算

1.平均值與總和

AVERAGE():求平均值。
SUM():求和。

2.日期的加減法

輸入當前系統時間/日期;

日期 公式 快捷鍵
2020/1/1 =TODAY() Ctrl+;
13:39 Ctrl+Shift+;
2009/1/1 =NOW() 1.Ctrl+; 2.按空格鍵 3.Ctrl+Shift+;

DATE(year,month,day),返回指定日期。
YEAR(),返回某日期對應的年份。
MONTH(),返回以序列號表示的日其中的月份,用整數1~12表示。
DAY(),返回以序列號表示的日期的天數,用整數1~31表示。
DATEIF(start_date,end_date,unit),返回兩個日期之間的年/月/日間隔數。unit有Y/M/D/YM/YD六種形式。

3.數據轉換

3.1 數據表的行列互換

方法1:選擇性粘貼。

方法2:Ctrl+Alt+V

3.2 多選題幾種錄入方式之間的轉換

多選題的兩種錄入方式:
1.二分法,各選項用0和1表示該選項是否被錄入。
2.多重分類法,直接錄入選項的額代碼。只能在SPSS裏分析。

下圖左邊多重分類法中的“選項一”“選項二”“選項三”是多選題中選擇的三個選項,比如,被調查者甲選的是A、B、C,那麼B2:D2的單元格中分別輸入1,2,3。

VLOOKUP,按列查找。
HLOOKUP(lookup_value,table_array,col_index_num,range_lookup),在表格的首行查找指定的數據,並返回指定的數據所在列中的指定行處的單元格內容。比如,HLOOKUP(1,B5:D5,1,0)表示“在B5:D5區域的第一行中查找數值1,找到數值1所在的列,返回該列對應的單元格區域的第一行數據,並精確匹配,否則,返回’#N/A’”。

多重分類法轉換爲二分法錄入數據,用SEARCH函數代替HLOOKUP函數。

函數/參數 含義
SEARCH(find_text,within_text,start_num) 返回指定的字符串在原始字符串中首次出現的位置
find_text 要查找的文本字符串
within_text 要在哪一個字符串查找
start_num within_text的第幾個字符開始查找

例子如下,SEARCH("1",A4)表示在A4單元格的字符串中查找1。

4.數據分組

分組對應表如下圖右表所示,用來確定分組的範圍和標準。“閾值”,是每組覆蓋的數值範圍中的下限。“分組”,是每一組的組名。“備註”,是分組標準。

使用VLOOKUP實現數據分組,省略了最後一個參數range_lookup,默認近似匹配。這樣,單元格B2公式不是在D列中查找0,而是查找接近A2,且不大於A2的值。“最接近且不大於”,如A5(=5.5),閾值中最接近A5且小於或等於A5的值是D2(=5),則對應的E2就是A5的分組。

四、數據抽樣

普查,對總體中的對象都進行觀察研究。
抽樣調查,從總體中隨機抽取部分樣本進行分析。

RAND(),只能返回0~1之間的數。如要生成a ~ b之間的隨機數,用公式=RAND()*(b-a)+a

假設B列有表示100個人的編號(無表頭),要隨機抽取30個人,步驟如下:
1.對100個人生成不重複的序號,A1=1A2=A1+1,……,A100=A99+1
2.隨機生成30個1~100的隨機數,將公式=INT(RAND()*100複製到D列的30個單元格中。
3.參照A、B列,將D列隨機數對應的編號匹配到E列中,將公式=VLOOKUP(D1,$A:$B,2,0)複製到E列的30個單元格中。
4.對抽取出來的編號去重,重複上述步驟,直到抽到了30個編號不重複的人。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章