正則表達式在工作中的使用案例

前言

上次我們學習了正則表達式的使用,那今天就以兩個現實中的問題爲例,來看看正則表達式的妙用,以此來提升工作效率。

案例一

如圖,我們需要從基礎數據中提取各種括號內的內容,這裏有多種括號,有中文的小括號,還有英文的小括號和<>。如果用Excel中的函數的話也能實現,但是很複雜,我們這裏用正則表達式來實現。

(1)將表格中的內容複製到word中,記得粘貼時,使用只保留文本。

(2)使用Ctrl+H調出替換窗口,使用通配符(這裏其實就是使用正則表達式,但是需要注意的是,word中的正則表達式元字符有限,有些字符是沒法使用的),在查找內容中輸入:

[<>()\(\)]

在替換窗口中輸入^t。

這裏解釋下[<>()\(\)]含義,中括號的意思就是匹配中括號內任意的字符,由於英文的小括號代表提取的意思,所以前面要加上\,用於轉義。

這樣就能把這些括號,全部替換爲製表符。

(3)最後,複製到Excel中即可。

案例二

上文中爲了使用正則表達式,需要在word中使用,其一比較麻煩,其二word中正則表達式的功能也不強大。所以要使用更復雜的功能,就需要使用編程語言了。

下次我們再詳細講解Python正則表達式,這次我們在在線網站上使用正則表達式(https://regex101.com/)。

在爬蟲中,爬取的信息如下:

高樓層(第9層)|2013年建|3室1廳|南北

我們需要清洗爲:

9 2013 3室1廳 南北

通過下面代碼即可:

第(\d+)層\)\|(\d{4})年建\|(\d室\d廳)\|([東西南北]+)

今天的內容就到這啦,下期詳細分享Python正則表達式。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章