今天想用正则表达式匹配微博中网页信息并删除超链接,例如“3768152699415666 网友反映,沃尔玛东门非法停车太多严重影响交通,我们把车停马路上的停车位上了,很多司机拉活,又在我们车左侧违法停了一排,导致交通混乱。希望有关部门能治理。 http:\t.cnR7ygMKL @北京12345 @北京延庆2014/10/17 10:22 延庆生活门户$”
这还不简单,马上写好代码。
String regex = "http:\\t.[a-z,1-9,A-Z]*"
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(str);
boolean result = m.find();
我去,各种失败。为嘛?
测试发现,反斜杠"\"总是匹配不对,后来发现,regex字符串String,http:\\... -> http:\....
再然后compile中的http:\t...继续匹配,http:\t....你懂了吧,Tab键,怎么能匹配呢。
于是更改
String regex = "http:\\\\t.[a-z,1-9,A-Z]*"
ok.