Python百行代碼輕鬆爬取了妹子網100G的套圖，希望你網盤內存夠用【附源碼】

前言

最近在做監控相關的配套設施，發現很多腳本都是基於Python的。很早之前就聽說其大名，人生苦短，我學Python，這並非一句戲言。隨着人工智能、機器學習、深度學習的崛起，目前市面上大部分的人工智能的代碼大多使用Python 來編寫。所以人工智能時代，是時候學點Python了。

基本環境配置

Python3
PyCharm

實現步驟

以妹子圖爲例，其實很簡單，分以下四步：

獲取首頁的頁碼數，並創建與頁碼對應的文件夾
獲取頁面的欄目地址
進入欄目，獲取欄目頁碼數(每個欄目下有多張圖片，分頁顯示)
獲取到欄目下對用標籤中的圖片並下載

注意事項

爬取過程中，還需要注意以下幾點，可能對你有所幫助：

1）導庫，其實就類似於Java中框架或者是工具類，底層都被封裝好了

2）定義方法函數，一個爬蟲可能會幾百行，所以儘量不要寫成一坨

3）定義全局變量

4）防盜鏈

5）切換版本

6）異常捕獲

代碼實現

在學習過程中有什麼不懂得可以加我的
python學習扣扣qun，784758214
羣裏有不錯的學習視頻教程、開發工具與電子書籍。
與你分享python企業當下人才需求及怎麼從零基礎學習好python，和學習什麼內容

import requests
from bs4 import BeautifulSoup
import os
import urllib
import random


class mzitu():
    def all_url(self, url):
        html = self.request(url)
        all_a = BeautifulSoup(html.text, 'lxml').find('div', class_='all').find_all('a')
        for a in all_a:
            title = a.get_text()
            print(u'開始保存：', title)
            path = str(title).replace("?", '_')
            if not self.mkdir(path):  ##跳過已存在的文件夾
                print(u'已經跳過：', title)
                continue
            href = a['href']
            self.html(href)

    def html(self, href):
        html = self.request(href)
        max_span = BeautifulSoup(html.text, 'lxml').find('div', class_='pagenavi').find_all('span')[-2].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = href + '/' + str(page)
            self.img(page_url)

    def img(self, page_url):
        img_html = self.request(page_url)
        img_url = BeautifulSoup(img_html.text, 'lxml').find('div', class_='main-image').find('img')['src']
        self.save(img_url, page_url)

    def save(self, img_url, page_url):
        name = img_url[-9:-4]
        try:
            img = self.requestpic(img_url, page_url)
            f = open(name + '.jpg', 'ab')
            f.write(img.content)
            f.close()
        except FileNotFoundError:  ##捕獲異常，繼續往下走
            print(u'圖片不存在已跳過：', img_url)
            return False

    def mkdir(self, path):  ##這個函數創建文件夾
        path = path.strip()
        isExists = os.path.exists(os.path.join("C:\d\mzitu", path))
        if not isExists:
            print(u'建了一個名字叫做', path, u'的文件夾！')
            os.makedirs(os.path.join("C:\d\mzitu", path))
            os.chdir(os.path.join("C:\d\mzitu", path))  ##切換到目錄
            return True
        else:
            print(u'名字叫做', path, u'的文件夾已經存在了！')
            return False

    def requestpic(self, url, Referer):  ##這個函數獲取網頁的response 然後返回
        user_agent_list = [ \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]
        ua = random.choice(user_agent_list)
        headers = {'User-Agent': ua, "Referer": Referer}  ##較之前版本獲取圖片關鍵參數在這裏
        content = requests.get(url, headers=headers)
        return content

    def request(self, url):  ##這個函數獲取網頁的response 然後返回
        headers = {
            'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
        content = requests.get(url, headers=headers)
        return content


Mzitu = mzitu()  ##實例化
Mzitu.all_url('http://www.mzitu.com/all')  ##給函數all_url傳入參數  你可以當作啓動爬蟲（就是入口）
print(u'恭喜您下載完成啦！')

下面，請小夥伴們睜大眼睛，雞凍人心的套圖時刻來了。

總結

其實腳本很簡單，從配置環境、安裝集成開發環境、編寫腳本到整個腳本順利執行，差不多花費了四五個小時，最終腳本一根筋的執行。限於服務器帶寬以及配置的影響，17G的圖差不多下載了三四個小時，至於剩下的83G，小夥伴們自行下載吧。

對於初學者想更輕鬆的學好Python開發，爬蟲技術，Python數據分析，人工智能等技術,這裏也給大家準備了一套系統教學資源，加Python技術學習教程qq裙：784758214，免費領取。學習過程中有疑問，羣裏有專業的老司機免費答疑解惑!點擊加入我們的 python學習圈

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python百行代碼輕鬆爬取了妹子網100G的套圖，希望你網盤內存夠用【附源碼】

Python入門系列5-保留字和標識符

Python入門系列10-Python的註釋

Python入門系列9-Python數據類型

Python入門系列7-用集成開發環境（IDE）寫Python代碼

【實戰案例】用Python做出5 種非傳統的可視化技術，超炫酷的動態圖

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結