深入入門正則表達式（java） - 匹配原理 - 2 - 回溯

內容可能有些不嚴謹的地方，希望大家落腳前先拍磚，多謝

回溯（backtracking）

NFA引擎最重要的性質是：它會一次處理各個子表達式或組成元素，遇到需要在兩個可能成功的可能中進行選擇的時候，它會選擇其一，同時記住其他結果，以備後續需要

需要做出選擇的情形包括 量詞（決定是否嘗試另一次匹配）和多選結構（決定選擇哪個多選分支）

兩個要點：

1.如果需要在“進行嘗試”和“跳過嘗試”之間選擇，對於匹配優先量詞來說，引擎會優先選擇“進行嘗試”，對於忽略優先量詞來說，會選擇“跳過嘗試”

2.距離當前最近存儲的選項就是當本地失敗強制回溯返回的。使用的原則是LIFO（last in first out，後進先出）。

實際上，NFA搜索的過程算法就是深度優先（關於深度優先介紹見文章末尾，內容來自中文維機百科），只不過並不一定完全遍歷，完成匹配之後就停止搜索了。下面我舉幾個簡單的例子，畫圖來描述一下。

例，假如我們要匹配一串數字中的最後兩位，目標字符串“3456”，正則“\d+(\d\d)”，下面是一個流程示意圖：

匹配過程比較簡單，首先\d+匹配3、4、5、6，其中綠色的圓圈是\d+的備用位置。

\d+繼續嘗試匹配，發現沒有字符了，所以它的匹配結束，把控制權交給了\d，然而\d也無法匹配，所以需要進行回溯。

正則回到第二個綠色圓圈那裏，然後控制權交給\d。現在\d可以匹配到數字6了，匹配結束，控制權交給\d，發現沒有字符留給它，所以還需要回溯。

正則回到第一個綠色圓圈那裏，然後控制權交給\d。現在\d可以匹配到數字5了，匹配結束，控制權交給\d，匹配到了數字6，匹配結束，至此整個表達式完成了匹配。

（這裏紅色的圓圈表示交換控制權，這樣方便理解。只有在綠色圓圈處纔可能產生新的分支，其餘地方，如果匹配失敗，只需要原路返回到綠色圓圈處即可，然後嘗試量詞和多選結構的備用狀態）

環視中的回溯

如果環視結構的匹配嘗試結束，那麼它就不會留下任何備用狀態。如果匹配成功，它會放棄剩餘的備用狀態；如果匹配失敗，則繼續嘗試匹配，直到所有備用狀態用光，所以也不會留下備用狀態。

環視中，是有可能放棄備用狀態的，下面要介紹的固化分組和佔有優先量詞也會具有這樣的性質。

下面有一條顯而易見，但是又容易讓大家忽略的事實。

無論是匹配優先還是忽略優先，只要引擎報告匹配失敗，它就必然嘗試了所有可能。

所以，如果有太多的回溯的可能，那麼可能會使得你的程序阻塞，在android裏面會產生ANR。之後會給出能阻塞程序的例子。

（對於傳統NFA來說，選擇結構是按順序的，並不是匹配優先也不是忽略優先）

固化分組與佔有優先量詞

(?>...) ：固化分組

“?+”、“*+”、“++”、“{m,n}+” ：佔有優先量詞

固化分組

對於“(?>...)” 中的內容部分（省略號省略的部分）來說，與之前將過的匹配規則一致，沒有什麼區別，但是，當此部分表達式匹配完畢，開始匹配括號外面的部分時，括號內的所有備用狀態都會被放棄，也就是說，如果之後的匹配失敗，也不會回退固化分組之前記錄的狀態（因爲出了固化分組後，它就忘了之前的狀態了，這哥們記性不是很好）。

固化分組和環視都有放棄備用狀態的特點，我們可以考慮使用肯定環視來模擬固化分組。

對於“(?>regex)” ，我們希望匹配了regex之後就放棄其備用狀態，我們知道“(?=regex)”匹配結束之後會放棄其備選狀態，那麼可以使用“(?=(?:regex))\1”，這樣會比真正的固化分組慢一些，因爲還要重新匹配“\1”。

下面給出一個簡單的例子：目標字符串“abc”，正則“(?=\w+)\1”

首先\w+會匹配abc，匹配完成後放棄其所有備選狀態，把控制權交給“\1”。“\1”再次重新匹配abc。

如果正則改爲：“(?=\w+)\1c”

我想讓\w+匹配到“ab”，這樣“\1”就匹配到了“ab”，“c”對應“c”，匹配成功。但是，結果並不是這樣的！

和上面的匹配過程一樣：首先\w+會匹配abc，匹配完成後放棄其所有備選狀態，把控制權交給“\1”。“\1”再次重新匹配abc。然後把控制權交給“c”，發現匹配失敗，沒有備用狀態，整體匹配就失敗了。有的同學可能會想，如果我讓正則回溯到環視之前呢？其實也是一樣的，當把控制權交給環視的時候，“\w+”依然直接匹配“abc”，後面大家都知道了，然後再次回溯……

所以當“c”無法匹配字符時，沒有必要進行回溯，可以直接宣告匹配失敗。

下面看看這個正則表達式：“(?>.*?)”

如果上面的內容理解了，那麼這個正則也不難了，它永遠也匹配不到任何字符。

佔有優先量詞

佔有優先量詞與匹配優先量詞（貪婪匹配）很像，區別在於：佔有優先量詞不會交還字符，而匹配優先在需要的時候會交還字符。

下面給大家一個例子：

字符串：aaaaa

正則1：“\w+a”

正則2：“\w++a”

正則1：首先“\w+a” 的\w+部分會匹配所有字符，它會佔有5個a，然後“\w+a” 對其中的a進行匹配，發現已經沒有字符留給它了，這時候\w會交還之前佔有的字符，每次交還一個。交還一個後，\w擁有“aaaa”，這時候“\w+a” 的a發現，它能匹配\w交還的字符，於是匹配成功，匹配結束。

正則2：同樣，“\w++a” 的\w++部分會匹配所有字符，然後發現“\w++a” 的a部分無法匹配，但是\w++不會交還之前匹配到的字符，於是，匹配宣告失敗！

區分固化分組與佔有優先

作者告訴我們：請務必區分 下面兩個表達式

表達式1：“(?>M)+”

表達式2：“(?>M+)”

表達式1放棄了M的備用狀態，但是M並沒有創造狀態，所以這樣做沒有什麼意義

表達式2放棄了M+的備用狀態，這樣顯然有意義。

表達式3：“M++”

與表達式2一樣，佔有優先量詞可以用固化分組來實現。

下面是一個稍微複雜點的佔有優先表達式，如何將它轉化爲固化分組呢？

(\\"|[^"])*+

其實我覺得，如果理解了上面的文字，那麼轉化還是挺簡單的，結果如下

(?>(\\"|[^"])*)

可作者覺得，可能會有很多人寫成下面錯誤的形式

(?>\\"|[^"])*

所以作者特意總結了一下：去掉表示佔有優先的加號，用固化分組把餘下的部分包括起來。

深度優先算法（Depth-First-Search）

類別：	搜索算法
數據結構：	圖
時間複雜度：
空間複雜度：
最佳解：	否
完全性：	是
其他：	b-分支系數 m-圖的最大深度

搜索算法的一種。是沿着樹的深度遍歷樹的節點，儘可能深的搜索樹的分支。當節點v的所有邊都己被探尋過，搜索將回溯到發現節點v的那條邊的起始節點。這一過程一直進行到已發現從源節點可達的所有節點爲止。如果還存在未被發現的節點，則選擇其中一個作爲源節點並重復以上過程，整個進程反覆進行直到所有節點都被訪問爲止。屬於盲目搜索。

轉貼請保留以下鏈接

本人blog地址

http://su1216.iteye.com/

http://blog.csdn.net/su1216/

深入入門正則表達式（java） - 匹配原理 - 2 - 回溯

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

android獲取應用基本信息

《Linux命令行與shell腳本編程大全》第二十一章學習筆記

《Linux命令行與shell腳本編程大全》第十六章學習筆記

《Linux命令行與shell腳本編程大全》第十五章學習筆記

android獲取應用內自定義權限與權限使用情況

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結