python實現下載韓寒博客中的所有文章,在本地存儲

# -*- coding:utf-8 -*- # 
import urllib,requests
import bs4,os,re


urlList = []
urlListZuiHou = []
urlPurpose = 'http://blog.sina.com.cn/twocold'


#下載韓寒博客網頁
res = requests.get(urlPurpose)

#檢查是否下載成功
try:
    res.raise_for_status()
except Exception as exc:
    print('There was a problem:%s'%(exc))

#通過正則表達式在下載網頁中匹配博文地址存放在urlList列表中    
patternUrl = r'http://blog.sina\.com\.cn/s/blog.+\.html'
regex = re.compile(patternUrl)
urlList = re.findall(regex,res.text)


#去掉重複的URl路徑項,存放在列表urlListZuiHou中 
for i in range(0,len(urlList),4):
    urlListZuiHou.append(urlList[i])




#循環遍歷所有博客地址,並下載保存到本地文件
for i in range(len(urlListZuiHou)):
    resBlog = urllib.request.urlopen(urlListZuiHou[i])
    #轉化下載文件的編碼格式utf-8
    html = str(resBlog.read(),'utf-8')

#創建BeautifulSoup對象,並查找匹配博客標題    
    bs4BOne = bs4.BeautifulSoup(html)
    bs4BlogBiaoTi = bs4BOne.select('title')

#以博客標題爲文件名稱,將每一篇博客保存爲html文件
    openBlogFileHTML = open('C:\\Users\\Nick\\Desktop\\python\\drawing\\2\\quiz\\'+str(bs4BlogBiaoTi[0].getText())+'.html','at')
    openBlogFileHTML.write(html)
    openBlogFileHTML.close()

發佈了32 篇原創文章 · 獲贊 5 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章