Python爬取豆瓣電影

前幾天做了一個爬取豆瓣Top250電影的爬蟲，在爬取了豆瓣Top250的電影后，想試一試根據電影類別爬取所有的豆瓣電影，基本的原理是想通的。代碼採用Python，摳取頁面內容採用Beautiful Soup。

1.豆瓣電影分析

以豆瓣愛情類型電影爲例，在瀏覽區中輸入http://www.douban.com/tag/%E7%88%B1%E6%83%85/movie?start=0後顯示的內容如下圖所示：

可以看到每個電影以列表顯示展現，每頁顯示15條電影信息。每一條的電影信息包括電影名稱、國家或地區、電影類型、導演、主演，如果需要查看詳細的電影信息需要每個電影的詳情頁面。

2.獲取豆瓣電影類別

要根據電影類型爬取電影需要先獲取所有的電影類別。

在Chrome瀏覽器中通過F12分析頁面內容，可以看到類別是處於id爲'article'的div標籤中。

獲取每一條類別名稱，並存放於List中。

在獲取了所有的類別標籤後，依次遍歷每一個類別標籤，根據類別名稱獲取此類別的電影。查看類別電影列表的源碼特點

所有的電影列表處於<div class="mod movie-list">之中，每一個電影在dl中。採用Beautiful Soup獲取電影列表，然後分析每一個電影信息，獲取電影詳情頁面的URL，下面代碼中的detail_url即爲電影詳情頁面的URL

獲取到URL之後，再次爬取單個電影頁面，獲取電影的電影名稱、導演、編劇、主演、類型、製品國家或地區、語言、上映時間、片長、豆瓣評分、劇情簡介信息。

獲取豆瓣評分及劇情介紹代碼：

在處理中每爬取一頁內容即把數據存放於數據庫中。

爬取的電影信息總共有26302條

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.