參考一書對我們ETL log解析模塊一個正則的優化

原創

2020-06-16 11:10

一句話需求：從ETL的log中提取出來一個ETL腳本落地了哪些臨時表，日常數據庫運維需要這些數據。

經過python程序處理後，提取到了如下的信息，這些在腳本中DELETE的都是臨時表。

DELETE FROM DTEMP.L_SELL_PROXY_MARKETER_02 ALL;

可能大家疑惑這個很簡單啊，不用正則，python完全可以處理。暫且不去討論”前人”爲何選擇正則去處理。

先上”前人”的正則表達式：

.+\.(.+)\sALL;

分析該正則：

.+   .匹配換行以外的任意字符，而後面的+代表匹配優先量詞，因此.+匹配了正行數據

\.    匹配一個.符號，由於要匹配這個字符，前面.+不得不將他匹配到的吐出來，直到.的位置，這就產生了幾十個回溯

(.+)  同理依舊會吐下.以後所有的字符

 \sALL;  又強迫(.+)吐出來很多字符，這又產生了回溯

這個正則總共回溯近40次完成了匹配，雖然對我們的程序沒有產生太大的效率問題，還是決定優化下這個正則。

該正則問題在於濫用. 和+

優化思考：
1：既然我只要表名（L_SELL_PROXY_MARKETER_02）那麼我是否能將匹配的錨點定到.這個位置
2：分組中的.何不換成\w

最後的正則：

(?=\.)\.(\w+).?

優化後的執行：

測試通過：

import re
print re.search(r"(?=\.)\.(\w+).?","DELETE FROM DTEMP.L_SELL_PROXY_MARKETER_02 ALL;").group(1)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

參考一書對我們ETL log解析模塊一個正則的優化

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

參考一書對我們ETL log解析模塊一個正則的優化

teradata DISTINCT vs GROUP BY

teradata ANSI extension-QUALIFY

teradata PI -- Join的影響

teradata EXPLAIN 讀懂關鍵字--讀懂執行計劃

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結