今天想用正則表達式匹配微博中網頁信息並刪除超鏈接,例如“3768152699415666 網友反映,沃爾瑪東門非法停車太多嚴重影響交通,我們把車停馬路上的停車位上了,很多司機拉活,又在我們車左側違法停了一排,導致交通混亂。希望有關部門能治理。 http:\t.cnR7ygMKL @北京12345 @北京延慶2014/10/17 10:22 延慶生活門戶$”
這還不簡單,馬上寫好代碼。
String regex = "http:\\t.[a-z,1-9,A-Z]*"
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(str);
boolean result = m.find();
我去,各種失敗。爲嘛?
測試發現,反斜槓"\"總是匹配不對,後來發現,regex字符串String,http:\\... -> http:\....
再然後compile中的http:\t...繼續匹配,http:\t....你懂了吧,Tab鍵,怎麼能匹配呢。
於是更改
String regex = "http:\\\\t.[a-z,1-9,A-Z]*"
ok.