個人永久性免費-Excel催化劑功能第112波-全方位對文本及文本文件無死角處理

數據處理分析過程中,不可避免面對文本的處理,在Excel催化劑過往的功能中,也做了大量的相關功能,但仍未到盡頭,此篇再補充最近網頁數據採集功能開發過程中遇到的一些文本處理問題並繼續不斷地開發相關文本處理功能來實現,打造出目前爲止能想到的任何文本相關的處理痛點的解決方案。

過往的文本處理功能回顧

在過往的功能中,簡單羅列如下:,閱讀過往文章最佳的閱讀體驗是到公衆號後臺回覆:插件下載,獲取其PDF或WORD版本的功能合集文章。

  • 第25波-小白適用的文本處理功能 ,用於簡單的中文、數字、英文等的提取和刪除操作。同時還有文本轉數字、文本前後和中間插入相同內容等高頻操作。最後此處也有高階的正則處理的功能開放給高級用戶。
  • 第39波-DotNet版的正則處理函數,使用自定義函數的方式,輸出正則的能力給大家日常處理文本內容。正則表達式是筆者最推崇中高級用戶去努力成長的知識點之一,無關編程語言環境,但使用場景非常廣泛,例如Excel催化劑將其做到自定義函數上使用,非常方便,也是筆者自己最高頻使用的自定義函數,沒有之一。
  • 第43波-文本處理類函數增強,這裏再增加了一批區分於正則的高要求的文本函數,將正則裏常見的中文、數字、英文等提取功能做成普通函數,傻瓜式調用。同時還有字符串拼接函數,非常剛需,不用追所謂的OFFICE高版本所提供的TEXTJOIN函數,Excel催化劑的自定義函數比Excel原生的新增函數還要強大,還要通用和兼容。
  • 第101波-批量替換功能(增加正則及高性能替換能力),此功能着重用於批量性替換文本操作,較原生的替換功能,可以大大簡化步驟,同時也是支持正則表達式的處理,正則在文本世界無處不在,總是能發揮無窮威力。
  • 第108波-批量轉換文本文件編碼,文本文件容易出現亂碼問題,此功能用於編碼轉換。
  • 第110波-當前行佔位符替換,用於當前行的內容替換,先用佔位符構造好所需內容,一鍵替換,非常好用,已成爲筆者的高頻功能之一。

以上內容都是筆者自己通過WORD文檔查找“文本處理”關鍵字回顧到的功能,連筆者作爲開發者都已經不記得有多少的功能,所以使用Excel催化劑,必須要學會最大限度地搜索,無論是功能位置還是功能教程,都適用。

本輪的文本處理功能補充

  • 正則處理函數的補充,原有的正則函數,未對文本文件進行提取,僅對單元格內容的提取爲主,這次給補全了。

有FromFile結尾的函數,可以直接傳入文本文件的全路徑,直接不需要手動複製粘貼的方式來提取文本文件裏的文本內容。

  • 網頁類的文本採集,這裏定義的網頁文本,除了常規的html格式,還有xml和json格式,同樣地除了調用單元格內容外,還可以調用文本文件內容。

    文本文件是一個寬泛的說法,不限於txt後綴結尾的文件,只要是僅保存爲文本格式,可由記事本打開的文件都算如md、html、csv、json、xml等等。

  • 文本文件讀取函數新增,某些場景下,文本文件的文本需要批量導入到Excel單元格中,使用此函數,免於繁瑣的複製粘貼。

    有兩個函數,一個是所有內容放到一個單元格內(Excel單元格存儲有最大字符數限制,大概3萬多個字符),一個是每行存儲一個單元格。

  • 文本文件字符串替換功能,前面許多對文本文件的操作,多數是提取的功能,此功能是對其改寫的功能,方便整理自己的文本文件,還是那樣,支持強大的正則匹配。

結語

上述如此多的針對文本處理的功能,到目前爲止,是筆者所能想到的所有場景全覆蓋,若有新的場景,歡迎提供,讓Excel催化劑打造成極致化的文本處理能力,無需任何工具輔助,門檻也是最低。

近期會針對上述提及的所有功能,使用視頻的直觀方式給大家展示Excel催化劑的強大,人人都能學會的黑科技技術,等你來參與。

慶Excel催化劑兩週年抽獎活動仍在進行中,後臺回覆【抽獎】二字,即可獲得抽獎鏈接,獎品爲13份視頻教程,很厚道,中獎率也算是很高的。祝你好運!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章