一、數據處理的內容

數據處理的內容主要有以下兩項：
1.數據清洗。將多餘重複的數據篩選出來，並剔除；將缺失的數據補足，將錯誤的數據糾正或刪除。
2.數據加工。對清洗過後的數據進行字段的信息提取、計算、分組、轉換等處理。

二、數據清洗

1.重複數據的處理

第一步，找出重複數據。

方法1：函數法
COUNTIF(range,criteria)，對區域中滿足單個指定條件的單元格進行計數。

range：要計數的單元格範圍。
criteria：計算條件，可以爲數字、表達式或文本，如32、>32或“三十二”。

在B2單元格輸入=COUNTIF(A:A,A2)，計算每一個員工編號出現的次數。
在C2單元格輸入=COUNTIF(A$2:A2,A2)，計算出現了兩次及以上的重複項。以C9對應的編號爲例，3表示從A1~A9，該編號是第3次出現。

方法2：高級篩選法

方法3：條件格式法

方法4：數據透視表

用數據透視表統計各項數據出現的頻次，出現2次及以上爲重複項。

第二步，刪除重複數據。

方法1：通過菜單操作刪除重複值

方法2：通過排序刪除重複值

選擇篩選功能，升序排序C列數據，刪除大於1的數值即可。

方法3：通過篩選刪除重複值

直接將篩選出來的重複值刪除即可。

2.缺失數據的處理

在Excel中，缺失值一般以空值或錯誤標識符標記。那麼，如何找出缺失值？

方法1：定位輸入
適用情況：缺失值以空白單元格形式出現。

彈出定位對話框：
1.Ctrl+G組合鍵
2.開始–>編輯–>定位條件

如何處理缺失值？
方法1：用一個樣本統計量的值代替缺失值。常用樣本均值代替缺失值。
方法2：用一個統計模型計算出來的值代替缺失值。常用的模型有迴歸模型、判別模型等，需藉助數據分析軟件。
方法3：刪除包含缺失值的數據記錄。
方法4：保留包含缺失值的數據記錄，分析時按需排除缺失值。

常用做法是，如果樣本量比較大，一般採用定位查找功能一次性選出所有缺失值，再用Ctrl+Enter組合鍵填充樣本均值。

方法2：查找替換
適用情況：缺失值以錯誤標識符形式出現。

以查找錯誤標識符“#DIV/0!”爲例：
1.選中所有數據區域，按Ctrl+H組合鍵，彈出“查找和替換”對話框。
2.在“查找內容”中輸入要搜索的文本或數字，在“替換爲”中輸入要替換成的內容，再單擊“全部替換”按鈕。

3.檢查數據邏輯錯誤

以員工滿意度問卷調查爲例，錯誤數據出現的情況有：
1.被調查對象輸入的選項不符合要求，比如，選擇的選項超過了3個。
2.錄入錯誤，比如，錄入的數據出現了0、1之外的數據。

如何檢查錯誤？
方法1：用IF函數檢查錯誤情況1.

COUNT，計數。
COUNTIF，對滿足指定條件的單元格進行計數。比如，COUNTIF(B3:H3,"<>0")表示“對B3:H3區域中不等於0的單元格進行計數”。
IF，判斷邏輯值的真假。比如，IF(COUNTIF(B3:H3,"<>0")>3,"錯誤","正確")表示“如果錄入的選項超過3個，則單元格顯示’錯誤’，否則，顯示’正確’”。

方法2：用條件格式檢查錯誤情況2.

OR，或，至少一個爲真，就範圍TRUE。
AND，和，所有參數都爲真，才返回TRUE。

三、數據加工

1.數據抽取

數據抽取，指保留某些字段的部分信息，組合成一個新字段。
1.字段分列，截取某一字段的部分信息；
2.字段合併，將某幾個字段合併爲一個新字段；
3.字段匹配，將原數據表中沒有但其他表中有的字段匹配起來。

字段分列

方法1：菜單法。

方法2：函數法。

LEFT，截取字符串左邊指定個數的字符。
RIGHT，截取字符串右邊指定個數的字符。

字段合併

組合文本和數字的方式有：
1.CONCATENATE函數，如CONCATENATE(A2,"遲到",B2,"次")。
2.&運算符，如A2&“遲到”&B2&“次”。

TEXT函數

**作用：**在使用連接運算符連接數字和文本時，控制數字的顯示方式。如果不用TEXT函數，則默認顯示引用單元格的基本數據。比如，若單元格中數據爲10%，不使用TEXT函數，合併後的數據則顯示爲0.1。
**注意：**合併數字和文本後，數據類型爲文本，不能做數學運算。

字段匹配

如何將員工職位表中的職務信息提取到員工個人信息（銷售部）表中？
1.在“員工個人信息（銷售部）”表中F2單元格中輸入=VLOOKUP(B2,[員工職位表.xlsx]Sheet1!$B$1:$D$11,3,0)。
2.複製單元格F2到F3:F7，完成數據提取。

VLOOKUP函數

作用：在表格的首列查找指定的數據，並返回指定的數據所在行中的指定列出的單元格內容。

lookup_value：要在表中第一列查找的值，參數可以是值或引用。

table_array：包含數據的單元格區域，可以是絕對區域或區域名稱的引用。

col_index_num：1，表示返回匹配值的列號，即返回table_array第一列中的值；2，表示返回匹配值的列號，即返回table_array第二列中的值，以此類推。

range_lookup：近似匹配1，精確匹配0，常用0.

注意：table_array第一列的值必須是要查找的值（lookup_value），否則會出現錯誤標識“#N/A”。出現“#N/A”其他情況還有：
1.數據存在空格，可以用TRIM函數批量刪除空格。
2.數據類型或格式不一致。

2.數據計算

2.1 簡單計算

簡單計算，能通過加減乘除計算出來的字段。

如下圖，銷售額=銷售數量*單價，總銷售額=∑各產品銷售額。

2.2 函數計算

1.平均值與總和

AVERAGE()：求平均值。
SUM()：求和。

2.日期的加減法

輸入當前系統時間/日期;

日期	公式	快捷鍵
2020/1/1	=TODAY()	Ctrl+;
13:39		Ctrl+Shift+;
2009/1/1	=NOW()	1.Ctrl+; 2.按空格鍵 3.Ctrl+Shift+;

DATE(year,month,day)，返回指定日期。
YEAR()，返回某日期對應的年份。
MONTH()，返回以序列號表示的日其中的月份，用整數1~12表示。
DAY()，返回以序列號表示的日期的天數，用整數1~31表示。
DATEIF(start_date,end_date,unit)，返回兩個日期之間的年/月/日間隔數。unit有Y/M/D/YM/YD六種形式。

3.數據轉換

3.1 數據表的行列互換

方法1：選擇性粘貼。

方法2：Ctrl+Alt+V

3.2 多選題幾種錄入方式之間的轉換

多選題的兩種錄入方式：
1.二分法，各選項用0和1表示該選項是否被錄入。
2.多重分類法，直接錄入選項的額代碼。只能在SPSS裏分析。

下圖左邊多重分類法中的“選項一”“選項二”“選項三”是多選題中選擇的三個選項，比如，被調查者甲選的是A、B、C，那麼B2:D2的單元格中分別輸入1,2,3。

VLOOKUP，按列查找。
HLOOKUP(lookup_value,table_array,col_index_num,range_lookup)，在表格的首行查找指定的數據，並返回指定的數據所在列中的指定行處的單元格內容。比如，HLOOKUP(1,B5:D5,1,0)表示“在B5:D5區域的第一行中查找數值1，找到數值1所在的列，返回該列對應的單元格區域的第一行數據，並精確匹配，否則，返回’#N/A’”。

多重分類法轉換爲二分法錄入數據，用SEARCH函數代替HLOOKUP函數。

函數/參數	含義
`SEARCH(find_text,within_text,start_num)`	返回指定的字符串在原始字符串中首次出現的位置
`find_text`	要查找的文本字符串
`within_text`	要在哪一個字符串查找
`start_num`	從`within_text`的第幾個字符開始查找

例子如下，SEARCH("1",A4)表示在A4單元格的字符串中查找1。

4.數據分組

分組對應表如下圖右表所示，用來確定分組的範圍和標準。“閾值”，是每組覆蓋的數值範圍中的下限。“分組”，是每一組的組名。“備註”，是分組標準。

使用VLOOKUP實現數據分組，省略了最後一個參數range_lookup，默認近似匹配。這樣，單元格B2公式不是在D列中查找0，而是查找接近A2，且不大於A2的值。“最接近且不大於”，如A5(=5.5)，閾值中最接近A5且小於或等於A5的值是D2(=5)，則對應的E2就是A5的分組。

四、數據抽樣

普查，對總體中的對象都進行觀察研究。
抽樣調查，從總體中隨機抽取部分樣本進行分析。

RAND()，只能返回0~1之間的數。如要生成a ~ b之間的隨機數，用公式=RAND()*(b-a)+a。

假設B列有表示100個人的編號（無表頭），要隨機抽取30個人，步驟如下：
1.對100個人生成不重複的序號，A1=1，A2=A1+1，……，A100=A99+1。
2.隨機生成30個1~100的隨機數，將公式=INT(RAND()*100複製到D列的30個單元格中。
3.參照A、B列，將D列隨機數對應的編號匹配到E列中，將公式=VLOOKUP(D1,$A:$B,2,0)複製到E列的30個單元格中。
4.對抽取出來的編號去重，重複上述步驟，直到抽到了30個編號不重複的人。

Excel：數據處理

一、數據處理的內容

二、數據清洗

1.重複數據的處理

2.缺失數據的處理

3.檢查數據邏輯錯誤

三、數據加工

1.數據抽取

2.數據計算

2.1 簡單計算

2.2 函數計算

1.平均值與總和

2.日期的加減法

3.數據轉換

3.1 數據表的行列互換

3.2 多選題幾種錄入方式之間的轉換

4.數據分組

四、數據抽樣

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

統計學：統計基本概念

SQL：認識數據庫

統計學：描述性統計分析

Python：文件

Python：條件判斷與循環控制

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結