Excel清理數據的十大方法

拼寫錯誤的單詞、難以去除的尾隨空格、不需要的前綴、不正確的大小寫和非打印字符給人一種不好的第一印象。導致數據混亂的因素還不止這些。請準備好。通過 Microsoft Excel 對工作表進行大掃除的時候到了。

清理數據的基礎知識

你並不一定始終可控制從數據庫、文本文件或網頁等外部數據源導入的數據格式和類型。通常需要先清理數據,才能分析數據。幸運的是,Excel 提供許多功能,可幫助用戶獲取所需精確格式的數據。有時任務非常簡單,Excel 具有執行此任務的特定功能。例如,可輕鬆使用拼寫檢查清理包含批註或說明的列中拼寫錯誤的單詞。或者如果想要刪除重複行,可使用“刪除重複項”對話框快速執行此操作。

在其他情況下,可能需要使用公式將導入的值轉換爲新值來操作一列或多列。例如,如果想要刪除尾隨空格,可創建新列來清理數據,方法是:使用公式,向下填充新列,將新列的公式轉換爲值,然後刪除原始列。

清理數據的基本步驟如下所示:

  1. 從外部數據源導入數據。

  2. 在單獨的工作簿中創建原始數據的備份副本

  3. 確保數據採用行和列的表格格式:每一列中的數據類似、所有列和行可見並且該區域中無空白行。爲獲得最佳效果,請使用 Excel 表格。

  4. 先執行不需要列操作的任務,例如拼寫檢查或使用“查找和替換”對話框。

  5. 接下來,執行需要列操作的任務。列操作的常規步驟有:

    1. 在需要清理的原始列 (A) 旁插入新列 (B)。

    2. 在新列 (B) 的頂部添加將轉換數據的公式。

    3. 在新列 (B) 中向下填充公式。在 Excel 表中,會使用向下填充的值自動創建計算列。

    4. 選擇新列 (B),將其複製,然後作爲值粘貼到新列 (B) 中。

    5. 刪除原始列 (A),這會將新列從 B 轉換爲 A。

若要定期清理相同的數據源,請考慮錄製宏或編寫代碼,自動執行整個過程。

刪除重複行

導入數據時,重複行是一個常見問題。最好先篩選唯一值,確認結果是所需結果,然後再刪除重複值。

查找和替換文本

可能需要刪除常見的前導字符串(例如後跟冒號和空格的標籤)或後綴(例如已過時或不必要的字符串結尾處的附加說明短語)。若要執行此操作,可查找文本的實例,然後將其替換爲無文本或其他文本。

更改文本大小寫

有時文本格式混亂,尤其是文本大小寫方面。使用三種 Case 函數中的一種或多種,可將文本轉換爲小寫字母(如電子郵件地址)、大寫字母(如產品代碼)或首字母大寫(如姓名或書名)。

刪除文本中的空格和非打印字符

有時文本值包含前導空格、尾隨空格或多個嵌入空格字符(Unicode 字符集值 32 和 160),或非打印字符(Unicode 字符集值 0 到 31、127、129、141、143、144 和 157)。執行排序、篩選或搜索操作時,這些字符有時會導致意外結果。例如,在外部數據源中,用戶可能會無意添加額外的空格字符,從而導致打字錯誤,或者從外部源導入的文本數據可能包含嵌入在文本中的非打印字符。由於這些字符不容易引起注意,因此意外結果可能很難理解。若要刪除這些不需要的字符,可組合使用 TRIM、CLEAN 和 SUBSTITUTE 函數。

修復數字和數字符號

主要有兩個數字問題可能需要你進行數據清理:無意中將數字導入爲文本,以及需要根據你組織的標準更改負號。

修復日期和時間

由於存在許多不同的日期格式,並且這些格式可能混雜有編號部件代碼或其他包含斜槓標記或連字符的字符串,因此日期和時間通常需要進行轉換和重新設置格式。

合併和拆分列

從外部數據源導入數據後的常見任務是將兩列或多列合併爲一列,或將一列拆分爲兩列或多列。例如,可能需要將包含全名的列拆分爲名字和姓氏。或者可能需要將包含地址字段的列拆分爲單獨的街道、城市、地區和郵政編碼列。反之亦可。可能需要將名字和姓氏列合併爲一個全名列,或者將單獨的地址列合併爲一列。其他可能需要合併爲一列或拆分爲多列的常見值包括產品代碼、文件路徑和 Internet 協議 (IP) 地址。

轉換和重新排列行和列

Office Excel 中的大多數分析和格式設置功能都假設數據存在於單個平面二維表中。有時可能需要將行轉換爲列、將列轉換爲行。有時候,數據甚至不是表格格式結構,需要使用一種方法將數據從非表格格式轉換爲表格格式。

通過聯接或匹配協調錶格數據

有時,數據庫管理員會使用 Office Excel 查找並更正兩個或多個表聯接時的匹配錯誤。這可能涉及協調不同工作表中的兩個表,例如,查看兩個表中的所有記錄,或比較兩個表並查找不匹配的行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章