爬取目標
用chrome Devtools尋找信息
- URL和請求方式
- Params和User-Agent
當點擊“加載更多”的時候,page_start參數會自增20,因此定義Params的時候要用一個循環
用Postman預覽Json字符串
這裏我們只需要獲得rate和name信息
用Python抓取
import requests
import json
url = 'https://movie.douban.com/j/search_subjects'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'
}
for i in range(0,100,20):
params = {
'type': 'tv',
'tag': '熱門',
'sort': 'recommend',
'page_limit': 20,
'page_start': i
}
res = requests.get(
url = url,
params = params,
headers = headers
)
html = res.text
data = json.loads(html)
for data_temp in data['subjects']:
print(data_temp['title'],data_temp['rate'])