14、web爬蟲講解2—Scrapy框架爬蟲—豆瓣登錄與利用打碼接口實現自動識別驗證碼

百度雲搜索:http://www.bdyss.cn
搜網盤:http://www.swpan.cn

打碼接口文件

# -*- coding: cp936 -*-

import sys
import os
from ctypes import *

# 下載接口放目錄 http://www.yundama.com/apidoc/YDM_SDK.html
# 錯誤代碼請查詢 http://www.yundama.com/apidoc/YDM_ErrorCode.html
# 所有函數請查詢 http://www.yundama.com/apidoc

print('>>>正在初始化...')

YDMApi = windll.LoadLibrary('H:/py/16/adc/adc/yamzhm/yundamaAPI-x64')

# 1. http://www.yundama.com/index/reg/developer 註冊開發者賬號
# 2. http://www.yundama.com/developer/myapp 添加新軟件
# 3. 使用添加的軟件ID和密鑰進行開發,享受豐厚分成

appId = 3818   # 軟件ID,開發者分成必要參數。登錄開發者後臺【我的軟件】獲得!
appKey = b'6ff56e09e89fffe45c14abe624af9456'     # 軟件密鑰,開發者分成必要參數。登錄開發者後臺【我的軟件】獲得!

# print('軟件ID:%d\r\n軟件密鑰:%s' % (appId, appKey))

# 注意這裏是普通會員賬號,不是開發者賬號,註冊地址 http://www.yundama.com/index/reg/user
# 開發者可以聯繫客服領取免費調試題分

username = b'adc8868'
password = b'adc279819'

if username == b'test':
    exit('\r\n>>>請先設置用戶名密碼')
    
####################### 一鍵識別函數 YDM_EasyDecodeByPath #######################

# print('\r\n>>>正在一鍵識別...')
#
# # 例:1004表示4位字母數字,不同類型收費不同。請準確填寫,否則影響識別率。在此查詢所有類型 http://www.yundama.com/price.html
# codetype = 1004
#
# # 分配30個字節存放識別結果
# result = c_char_p(b"                              ")
#
# # 識別超時時間 單位:秒
# timeout = 60
#
# # 驗證碼文件路徑
# filename = b'H:/py/16/adc/adc/yamzhm/yan_zhe_nma.jpg'
#
# # 一鍵識別函數,無需調用 YDM_SetAppInfo 和 YDM_Login,適合腳本調用
# captchaId = YDMApi.YDM_EasyDecodeByPath(username, password, appId, appKey, filename, codetype, timeout, result)
#
# print("一鍵識別:驗證碼ID:%d,識別結果:%s" % (captchaId, result.value))

################################################################################


########################## 普通識別函數 YDM_DecodeByPath #########################



# print('\r\n>>>正在登陸...')

# 第一步:初始化雲打碼,只需調用一次即可
YDMApi.YDM_SetAppInfo(appId, appKey)

# 第二步:登陸雲打碼賬號,只需調用一次即可
uid = YDMApi.YDM_Login(username, password)

if uid > 0:

    # print('>>>正在獲取餘額...')
    
    # 查詢賬號餘額,按需要調用
    balance = YDMApi.YDM_GetBalance(username, password)

    print('登陸成功,用戶名:%s,剩餘題分:%d' % (username, balance))

    print('\r\n>>>正在普通識別...')

    # 第三步:開始識別

    # 例:1004表示4位字母數字,不同類型收費不同。請準確填寫,否則影響識別率。在此查詢所有類型 http://www.yundama.com/price.html
    codetype = 3000

    # 分配30個字節存放識別結果
    result = c_char_p(b"                              ")

    # 驗證碼文件路徑
    filename = b'H:/py/16/adc/adc/yamzhm/yan_zhe_nma.jpg'

    # 普通識別函數,需先調用 YDM_SetAppInfo 和 YDM_Login 初始化
    captchaId = YDMApi.YDM_DecodeByPath(filename, codetype, result)

    print("普通識別:驗證碼ID:%d,識別結果:%s" % (captchaId, result.value))

else:
    print('登陸失敗,錯誤代碼:%d' % uid)

################################################################################

# print('\r\n>>>錯誤代碼請查詢 http://www.yundama.com/apidoc/YDM_ErrorCode.html')

# input('\r\n測試完成,按回車鍵結束...')

實現文件

# -*- coding: utf-8 -*-
import os
from urllib import request                     #導入request模塊

import scrapy
from scrapy.http import Request,FormRequest


class PachSpider(scrapy.Spider):                            #定義爬蟲類,必須繼承scrapy.Spider
    name = 'pach'                                           #設置爬蟲名稱
    allowed_domains = ['douban.com']                    #爬取域名
    # start_urls = ['']                                     #爬取網址,只適於不需要登錄的請求,因爲沒法設置cookie等信息

    header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}  #設置瀏覽器用戶代理

    def start_requests(self):
        """第一次請求一下登錄頁面,設置開啓cookie使其得到cookie,設置回調函數"""
        print("第一次請求頁面獲取Cookies.........!")
        return [Request('https://accounts.douban.com/login',meta={'cookiejar':1},callback=self.parse,headers=self.header)]


    def parse(self, response):
        # 響應Cookies
        Cookie1 = response.headers.getlist('Set-Cookie')                            #查看一下響應Cookie,也就是第一次訪問註冊頁面時後臺寫入瀏覽器的Cookie
        print('後臺首次寫入的響應Cookies:',Cookie1)

        #判斷是否出現驗證碼
        yzhm = response.xpath('//img[@id="captcha_image"]/@src').extract()
        if len(yzhm) > 0:
            print("出現驗證碼,請輸入驗證碼")
            print('驗證碼圖片地址:',yzhm)
            #將驗證碼圖片保存到本地
            file_path = os.path.join(os.getcwd() + '/adc/yamzhm/yan_zhe_nma.jpg')   # 拼接圖片保存路徑
            print(file_path)
            request.urlretrieve(yzhm[0], file_path)                             # 將圖片保存到本地,參數1獲取到的src,參數2保存路徑

            #使用在線打碼,自動識別驗證碼
            from adc.yamzhm import YDMPython3                                   #導入打碼模塊
            yan_zhen_ma = str(YDMPython3.result.value,encoding='utf-8')         #接收打碼結果
            print('寫入驗證碼',yan_zhen_ma)

            data = {                                                            # 設置用戶登錄信息,對應抓包得到字段
                'source': 'None',
                'redir': 'https://www.douban.com/people/81309370/',
                'form_email': '[email protected]',
                'form_password': 'adc279819',
                'login': '登錄',
                'captcha-solution': yan_zhen_ma
            }

            print('第二次post請求攜帶Cookies授權,登錄中........!')

            """第二次用表單post請求,攜帶Cookie、瀏覽器代理、用戶登錄信息,進行登錄給Cookie授權"""
            return [FormRequest.from_response(response,
                                              url='https://accounts.douban.com/login',                        #真實post地址
                                              meta={'cookiejar':response.meta['cookiejar']},
                                              headers=self.header,
                                              formdata=data,
                                              callback=self.next,
                                              )]
        else:
            data = {  # 設置用戶登錄信息,對應抓包得到字段
                'source': 'None',
                'redir': 'https://www.douban.com/people/81309370/',
                'form_email': '[email protected]',
                'form_password': 'adc279819',
                'login': '登錄',
            }

            print('第二次post請求攜帶Cookies授權,登錄中........!')

            """第二次用表單post請求,攜帶Cookie、瀏覽器代理、用戶登錄信息,進行登錄給Cookie授權"""
            return [FormRequest.from_response(response,
                                              url='https://accounts.douban.com/login',  # 真實post地址
                                              meta={'cookiejar': response.meta['cookiejar']},
                                              headers=self.header,
                                              formdata=data,
                                              callback=self.next,
                                              )]



    def next(self,response):
        # 請求Cookie
        Cookie2 = response.request.headers.getlist('Cookie')
        print('登錄時攜帶請求的Cookies:',Cookie2)

        dlujieg = response.xpath('/html/head/title/text()').extract()
        if dlujieg:
            print('登錄響應結果:',dlujieg)
        else:
            jieg = response.body.decode("utf-8")   #登錄後可以查看一下登錄響應信息
            print('登錄響應結果:',jieg)

        print('第三次請求攜帶授權Cookie,請求需要登錄才能查看的頁面.........!')
        yield Request('https://www.douban.com/people/81309370/',meta={'cookiejar':True},headers=self.header,callback=self.next2)


    def next2(self,response):
        # 請求Cookie
        Cookie3 = response.request.headers.getlist('Cookie')
        print('查看需要登錄纔可以訪問的頁面攜帶Cookies:',Cookie3)

        leir = response.xpath('/html/head/title/text()').extract()  #得到個人中心頁面
        print('最終內容',leir)
        # leir2 = response.xpath('//div[@class="set-tags"]/a/text()').extract()  # 得到個人中心頁面
        # print(leir2)

【轉載自:http://www.lqkweb.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章