Python爬蟲實例（一）使用request+lxml模塊抓取豆瓣top250電影名

## 一、requests模塊 get請求豆瓣網，獲取不到任何數據

在發起請求之前首先要注意是否是get請求，請求頭信息都有哪些，是否有cookie。把user-agent也進header中

## 二、在使用range()函數時

a = list(range(開始，末尾，步數))

## 三、源碼

```

import requests
from lxml import etree

#設置請求頭
headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0'
}
cookies = {'cookie':'"108300"; bid=x6CWhyewqig; __utma=30149280.485109852.1574991282.1574991282.1574991282.1; __utmc=30149280; __utmz=30149280.1574991282.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; ap_v=0,6.0; gr_user_id=056ec422-999e-4cc8-82e1-4757d6547298; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03=a3df6afd-13f6-4470-b577-a185c4c218e3; gr_cs1_a3df6afd-13f6-4470-b577-a185c4c218e3=user_id%3A0; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03_a3df6afd-13f6-4470-b577-a185c4c218e3=true; _vwo_uuid_v2=DEE210CAD2A1C37C8754AAD0465FEFC45|3c7ca2da3525dbfd34f59bad5030fbde; __gads=ID=9438760ce15e89b2:T=1574991108:S=ALNI_MbPmQ5P86tmDdlvMJS_0so-WCfqzQ; __utmb=30149280.4.10.1574991282'}
#封裝url請求方法
film = []
def get_film(url,headers,cookies):
    # 發送get請求
    response = requests.get(url, cookies=cookies, headers=headers).text
    # 獲取解析結果
    tree = etree.HTML(response)
    name_list = tree.xpath('.//div[@class="hd"]/a/span[@class="title"][1]/text()')
    film.extend(name_list)
for value in list(range(0,250,25)):
    url = "https://movie.douban.com/top250?start="+str(value)+"&filter="
    get_film(url,headers,cookies)
print(film)

```

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲實例（一）使用request+lxml模塊抓取豆瓣top250電影名

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Java中止線程的方式

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試

HTTP協議相關文檔

Python爬蟲實例（二）爬取數據後併入excel

Python爬蟲實例（一）使用request+lxml模塊抓取豆瓣top250電影名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結