python实在强大,用来制作爬虫是非常好的选择,能让你快速地开发一个爬虫工具。
python封装好的正则表达式函数,十分方便
#返回pattern对象
re.compile(string[,flag])
#以下为匹配所用函数
re.match(pattern, string[, flags]) //从开头开始匹配,遇到不匹配就结束
re.search(pattern, string[, flags]) //整段都进行匹配,到找到为止
re.split(pattern, string[, maxsplit]) //将指定的字符去掉,然后进行分割
re.findall(pattern, string[, flags]) //符合匹配条件的全部能找到
re.finditer(pattern, string[, flags])搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器
re.sub(pattern, repl, string[, count])使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时,可以使用\id或\g、\g引用分组,但不能使用编号0。
当repl是一个方法时,这个方法应当只接受一个参数(Match对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。
re.subn(pattern, repl, string[, count])返回 (sub(repl, string[, count]), 替换次数)。