最近在開發gecco的開源爬蟲時混淆了正則表達的部分匹配和完全匹配的概念,記錄一下。
java的正則表達式有個很容易混淆的概念,部分匹配和完全匹配:
在Matcher類中有matches、lookingAt和find都是匹配目標的方法,但容易混淆,整理它們的區別如下:
- matches:整個匹配,只有整個字符序列完全匹配成功,才返回True,否則返回False。但如果前部分匹配成功,將移動下次匹配的位置。
- lookingAt:部分匹配,總是從第一個字符進行匹配,匹配成功了不再繼續匹配,匹配失敗了,也不繼續匹配。
- find:部分匹配,從當前位置開始匹配,找到一個匹配的子串,將移動下次匹配的位置。
舉個例子:
- 模式串爲:^http://temai.tuniu.com/([^/]*)/([^/]*)
- 待匹配字符串爲:http://temai.tuniu.com/weihuo/tours/s4-p1/
matches返回false,find返回true;