抓取分析
首先打開要抓取的目標站點:http://maoyan.com/board/4
我們需要爬取得實惠電影名稱、主演、評分等信息。可以看到在這個頁面只有10部影片,而我們需要爬取前100,也就是需要爬取10頁。
滾動到最下方分頁列表,打開下一頁,可以看到頁面的URL發生了變化,多了參數offset=10。根據這個規律,我們可以通過改變URL的offset參數請求10次即可。
補充:確定一個網站是否可被爬取,可以先在網站根目錄下查看Robots協議確定是否可爬:
抓取一頁
這裏,我們將提取一頁的代碼用一個函數表示:
def get_one_page(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',
}
response = requests.get(url,headers = headers)
if response.status_code == 200:
return response.text
return None
def main():
url = 'http://maoyan.com/board/4'
html = get_one_page(url)
print(html)
main()
這樣就可以得到我們的頁面源代碼。
正則提取
這裏,我們要按需進行提取,網頁源碼信息那麼多,但是我們只需要提取我們需求的影片信息。因此,需要對源碼進行正則提取,首先就要找到我們需要的信息的源碼部分。F12在網頁中打開【開發者模式】,在【Network】中左邊打開4?offset=0的文件,可以看到源代碼。
!注意,不要在【Elements】中直接查看源碼,因爲【Elements】中的源碼可能經過JavaScript操作(如果有的話)與原始請求頁面不一樣。
根據我們需要提取的信息構造我們的正則表達式:
#排名信息:<dd>.*?board-index.*?>(.*?)</i>
#圖片信息:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"
#名字信息:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>
#主演等等:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>'
'.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>'
'.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern,html)
print(items)
結果:
完整代碼
import re
import requests
import json
def get_one_page(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.17 Safari/537.36',
}
response = requests.get(url,headers = headers)
if response.status_code == 200:
return response.text
return None
def main(offset):
url = 'http://maoyan.com/board/4?offset='+ str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
write_to_file(item)
#排名信息:<dd>.*?board-index.*?>(.*?)</i>
#圖片信息:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)"
#名字信息:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>
#主演等等綜合:<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(.*?)</i>'
'.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>'
'.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern,html)
#整理數據#
for item in items:
yield{
'index': item[0],
'image': item[1],
'title': item[2].strip(),
'actor': item[3].strip()[3:],
'time' : item[4].strip()[5:],
'score': item[5].strip() + item[6].strip()
}
print(items)
def write_to_file(content): #寫入文件
with open('result.txt','a',encoding='utf-8') as f:
# print(content)
f.write(json.dumps(content,ensure_ascii=False)+'\n') #json.dumps()是將dict轉化成str格式
if __name__ == '__main__': #這裏沒有這一行也可以
for i in range(10):
main(offset=i*10)
結果:
補充: if __name__ == '__main__'的意思是:當.py文件被直接運行時,if __name__ == '__main__'之下的代碼塊將被運行;當.py文件以模塊形式被導入時,if __name__ == '__main__'之下的代碼塊不被運行。
參考見博客:https://blog.csdn.net/yjk13703623757/article/details/77918633