Python爬虫第一天

1.安装BeautifulSoup库(第三方库,简化正则,目前还未体会到其应用优势~~) 

 

 2.Test1:获取url网页信息

import urllib.request
response = urllib.request.urlopen('http://python.org/')
result = response.read().decode('utf-8')
print(result)

3.Test2:提取url网页中包含的超级链接/网址

import urllib.request
import re  #re库用于正则表达式

response = urllib.request.urlopen('http://www.jd.com')
text = response.read().decode('UTF-8')
print(text)
linkre = re.compile('href=\"(.+?)\"')  #编辑正则模型
for x in linkre.findall(text):
    if 'http' in x:
        print('新增地址-->'+x)

4.正则

# pattern = re.compile('正则') 匹配所有
# pettern = re.match('正则') 开始匹配,匹配一次
# pettern = re.research('正则') 中间匹配,匹配一次

 

 

发布了27 篇原创文章 · 获赞 2 · 访问量 1万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章