Python一鍵獲取日漫Top100榜單電影信息

原創

2020-05-26 02:58

最近看到一個 UP 主做的視頻，使用可視化動態圖，把目前播放量最多的 UP 主一一列出來，結果第一名是嗶哩嗶哩番劇，第一名的播放量是第二名近 10 倍。

B站的番劇數量，也是相對其他平臺比較多的，而且質量都還不錯。說實話，剛開始用嗶哩嗶哩的時候，就是爲了看番劇。作爲一個喜歡看番劇的 pk 哥，我決定用爬蟲爬取一下日本動漫電影 TOP100 都有哪些？網上看了一下，時光網正好有這個排行榜，而且信息相對來說比較全。

所以我決定用爬蟲把這個榜單上 Top100 的所有電影信息全部保存爲 csv 文件放在本地，看有沒有之前我遺漏的經典動漫電影。

以下是保存的效果。保存的列包括電影名稱、導演編劇、發行公司、更多片名、評分、首日票房、總票房。有些電影沒有評分和票房信息的就直接顯示爲空。

獲取電影ID信息

本次爬蟲項目主要分爲三個部分。第一部分我們要獲取電影的 Id信息，因爲我們需要保存的所有信息，都和這個有關。Id從哪裏獲取呢？我們打開這個榜單頁面的源代碼。源代碼中我們可以看到，id都在鏈接後面。

爲了縮小範圍，我們發現這些鏈接都在 class=top_nlist 裏面，我們用 beautifulsoup 庫提取屬性 class= top_nlist 所有的元素。然後用正則表達式，提取出每頁的 id信息。

這裏第 1 個頁面需要特殊處理一下，因爲第 2 個頁面到第 10 個頁面後面都是直接帶的數字，第 1 個頁面直接我在後面加 -1 的話會報 404，所以這個頁面單獨拿出來提取頁面信息。然後再把 ID 信息全部加到空列表裏面。

ID 信息獲取了，接下來我們通過 ID 信息來獲取電影的評分和票房信息。通過 F12 調試我們可以看到。評分和票房信息在 js 裏面。

請求鏈接裏變化的就是電影的 ID ，其他的保持不變就好。

我們對返回信息通過簡單的處理轉換爲 Json 格式。之後我們就可以直接通過 key 值提取 value 值了。這裏主要提取的信息有：評分、首日票房和總票房。

接下來我們需要通過 ID 信息獲取對應電影的名稱和導演編劇等詳細信息。這些信息在源代碼中，可以直接通過正則表達式來提取。

用正則表達式提取信息的前提是我們要找到信息的規律。這樣通過正則表達式提取就又快又準。

提取了這些信息之後，我們把它保存在 list 列表中，這樣做的目的是爲了後面我們保存爲 csv 文件做準備。

每頁的信息獲取了之後，我們就可以把這些信息追加保存到 csv 文件中。每保存一部電影信息，保存下一部電影信息就進行追加保存。爲了避免保存後的 csv 文件打開出現亂碼，我們需要將編碼形式設置爲 encoding='utf-8' 格式。

通過這三步，這個 Top100 排行榜中的所有動漫電影信息都全部保存在本地的 csv 文件中啊。那我們就可以更方便的瀏覽這些電影信息。這樣我們就可以更好的追番了。本文所有的代碼信息可在公衆號「Python知識圈」後臺回覆「動漫電影」獲取。

歡迎關注公衆號「Python知識圈」，公衆號後臺回覆關鍵字，獲取更多幹貨。

回覆「英語」：送你英語 7000 單詞速記法，親測非常有效。

回覆「編程」：免費獲贈2019最新編程資料，認真學完BAT offer 拿到手軟。

回覆「賺錢」：領取簡單可實操的 36 個賺錢的小項目，每天多賺100塊零花錢。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.