正则表达式贪婪与非贪婪的回溯

原創

imtsir

2020-07-08 01:54

先推一个不错的js正则表达式在线资源：http://www.jb51.net/tools/zhengze.html。

概念不提，看例子：

贪婪：

var re=/<script>.+<\/script>/g;
jsstr = "<script<script>alert(document.cookie)<\/script>>alert(document.cookie)<\/script>";

var result=jsstr.match (re);
alert (result[0]);//<script>alert(document.cookie)<\/script>>alert(document.cookie)<\/script>

非贪婪：

var re=/<script>.+？<\/script>/g;
jsstr = "<script<script>alert(document.cookie)<\/script>>alert(document.cookie)<\/script>";

var result=jsstr.match (re);
alert (result[0]);//<script>alert(document.cookie)<\/script>

分析：

贪婪就是即使发现了匹配标签<\/script>（中间的），表达式依然贪想着后面可能还有这样的匹配标签，没有还则罢了，有就是最后发现的。（还有点（.）匹配除换行符 \n 之外的任何单个字符，所以中间出现的<\/script>就被当做任意字符处理了）；

非贪婪就是只要遇到匹配标签<\/script>就停止了，才不管后面得东东，只要满足就行了。

贪婪、非贪婪引起的回溯

回溯1：

var re=/\w*(\d+)/g;

var str="cfc456n";

var result=str.match (re);
alert (result[0]);//6

疑惑：为什么结果不是456呢？

分析：当正则引擎用正则\w*(\d+)去匹配字符串cfc456n时，会先用\w*去匹配字符串cfc456n，首先，\w*会匹配字符串cfc456n的所有字符，然后再交给\d+去匹配剩下的字符串，而剩下的没了，这时，\w*规则会不情愿的吐出一个字符，给\d+去匹配，同时，在吐出字符之前，记录一个点，这个点，就是用于回溯的点，然后\d+去匹配n，发现并不能匹配成功，会再次要求\w*再吐出一个字符，\w*会先再次记录一个回溯的点，再吐出一个字符。这时，\w* 匹配的结果只有cfc45了，已经吐出6n了，\d+再去匹配6，发现匹配成功，则会通知引擎，匹配成功了，就直接显示出来了。所以，(\d+)的结果是6，而不是456。

回溯2：

var re=/\w*?(\d+)/g;

var str="cfc456n";

var result=str.match (re);
alert (result[0]);//456

疑惑：这个又是什么个原理呢？

分析：正则表达式有条规则，是量词优先匹配，所以\w*?会先去匹配字符串cfc456，由于\w*?是非贪婪，正则引擎会用表达式\w+?每次仅匹配一个字符串,然后再将控制权交给后面的\d+去匹配下一个字符，同时，记录一个点，用于在匹配不成功的时候，返回这里，再次匹配，也就是回溯点。由于\w后面是量词是*，*表示0到无数次，所以，首先是0次，也就是\w*?匹配个空，记录回溯点，将控制权交给\d+,\d+去匹配cfc456n的第一个字符c,然后，匹配失败，于是乎，接着讲控制权交给\w*?去匹配cfc456n的c，\w*?匹配c成功，由于是非贪婪，所以，他每次只匹配一个字符，记录回溯点，然后再将控制权交给\d+匹配f,接着，\d+匹配f再失败，再把控制权给\w*?，\w*?再匹配c,记录回溯点（这时\w*?匹配结果是cfc了），再把控制权给\d+，\d+去匹配4，匹配成功，然后，由于量词是+，就是1到无数次，所以，接着往后匹配，再匹配5，成功，再接着，再匹配6，成功，再接着，继续匹配操作，下一个字符是n，匹配失败，这时，\d+会吧控制权交出去。由于\d+后面已经没有正则表达式了，所以，整个正则表达式宣告匹配完成，其结果就是 cfc456, 其中第一组结果是456。

额外的例子

var re=/<script>.+？<\/script>/g;
jsstr = "<script>***。。。<\/script>";//长度大于100014

var result=jsstr.match (re);
alert (result[0]);//null

结果不能匹配成功？其原因就是回溯太多了，直到造成耗尽栈空间爆栈。

练习：用下面的re1,re2,re3去匹配str,分别有几次回溯？

var str = "<script>123456<\/script>";
var re1=/<script>.+<\/script>/g;

var re2=/<script>.+?<\/script>/g;
var re3=/<script>(?:(?!<\/script>).)+<\/script>/g; //7次

解析：re1:9次。(<script>)匹配"<script>"，(.+)匹配"123456<\/script>",此时(<\/script>)发现没得匹配了，就要求回溯，每回溯一次(.+)就会让出一个字符，这样9次之后就可以满足条件了。

re2:5次。(<script>)匹配"<script>"，(.+)匹配"1",此时轮到(<\/script>)匹配了,可是(<\/script>)发现不能匹配，于是要求回溯使得(.+)再次匹配一个"2",此后又轮到(<\/script>)，还不匹配，再回溯，如此5次，最终在(.+)匹配了"123456"后，(<\/script>)也得以匹配成功

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

正则表达式贪婪与非贪婪的回溯

AI模型 Llama 3体验笔记

【面试准备】又一次失败的面试经历，题目离谱～资深软件测试工程师

dotnet 8 版本与银河麒麟V10和UOS系统的 glibc 兼容性

python 壓縮備份文件

python windows配置環境路徑

正則表達式貪婪與非貪婪的回溯

python <1> windows配置環境路徑

正則表達式 <4> 貪婪與非貪婪的回溯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

正则表达式 贪婪与非贪婪的回溯

正则表达式贪婪与非贪婪的回溯