python 貪婪非貪婪匹配

原創

2018-08-29 19:36

python 中的正則是匹配換行以外的所有的字符。.* 是匹配不了所有的字符的。在某些情況下，我的結論是正確的，但是在某些情況下，我的結論又是錯誤的。剛纔遇到的問題，現在終於知道是怎麼回事了，原來是貪婪匹配和非貪婪匹配的問題，對於這種情況，我也是相對遲鈍了。
save.html 是我隨便抓來的一個html，我要從這個html中抓出所有的 javascript代碼段。

def getcss():

    fh = open('save.html')
    html =fh.read()

    #js_pattern = re.compile(r'<script .*?">');
    ans = re.findall(r'<script .*?>.*?</script>',html,re.S)

    src_pattern = re.compile(r'^"http.*"');
    for i in ans:
        #ret = re.findall(src_pattern,i)
        print i

通過上面的程序，我得到了下面的結果。源文件是一個html，格式一般，這些代碼段是分行的，我的目的是找出所有的代碼段。下面做一個簡單的解釋。在嘗試的過程中，我試了好幾種正則表達式，下面講一下我遇到的問題。

實現是跨行匹配的問題，.*是無法匹配\n的，所以如果標籤分佈在不同的行，那麼如何匹配中間的內容呢。爲了解決跨行匹配的問題，找到了這個解決方案,可以用([\d\D]*)或([\w\W]*) 或([\s\S]*) 來代替。
然後又遇到了問題，我的正則總是會匹配太多的內容，最後發現，我的匹配模式是按照最多內容匹配的。默認的匹配模式是貪婪匹配，所以如果用了.*的話，總會匹配更多的內容。所以找到了這個參考。python貪婪匹配看到了貪婪匹配和非貪婪匹配的核心在一個?上，re.S標記是多行匹配的關鍵，類似的標記還有re.M標記，這個是一行的標記。re.M：^$標誌將會匹配每一行，默認^和$只會匹配第一行,文章裏有幾個例子還是很不錯的，值得仔細研究一下,建議自己執行一下這些代碼，看下結果，如果這些都很清楚，那麼正則掌握的還算不錯。

re.findall(r"a(\d+?)", "a23b")
re.findall(r"a(\d+)", "a23b")
re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b")
re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b", re.S)

最後，實現了上面我提出的需求，主要利用了跨行匹配和非貪婪匹配。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python 貪婪非貪婪匹配

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

Kubuntu 系統美化--系統圖標

約瑟夫環 python 實現

PHP 正則（2）

python 包管理器 easy_install

PHP Pydev Eclipse (linux or mac)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python 貪婪 非貪婪 匹配

python 貪婪非貪婪匹配