scrapy 通過FormRequest模擬登錄再繼續

原創

my8100

2022-08-16 13:57

1.參考

https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.start_requests

自動提交 login.php 返回表單

https://doc.scrapy.org/en/latest/topics/request-response.html#using-formrequest-from-response-to-simulate-a-user-login

2.模擬登錄雪球

# -*- coding: utf-8 -*-
import os
import scrapy
from scrapy.shell import inspect_response

# https://doc.scrapy.org/en/latest/topics/spiders.html start_requests() 章節

class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['xueqiu.com']
    # start_urls = ['http://xueqiu.com/']  #The default implementation generates Request(url, dont_filter=True) for each url in start_urls.
    
    url_login = 'https://xueqiu.com/snowman/login',
    url_somebody = 'https://xueqiu.com/u/6146070786'
    data_dict = {
    'remember_me': 'true',
    # 'username': 'fake',  #返回200 {"error_description":"用戶名或密碼錯誤","error_uri":"/provider/oauth/token","error_code":"20082"}
    'username': os.getenv('xueqiu_username'),
    'password': os.getenv('xueqiu_password'),
    }
    
    def start_requests(self):
        return [scrapy.FormRequest(url = self.url_login,
                                    headers={'X-Requested-With': 'XMLHttpRequest'},  #否則404將導致退出,抓包頁面顯示登錄成功
                                    meta={'proxy': 'http://127.0.0.1:8888'},  #否則fiddler導致返回緩慢
                                    formdata = self.data_dict,
                                    callback=self.logged_in)]

    def logged_in(self, response):
        # inspect_response(response, self)
        assert os.getenv('xueqiu_nickname') in response.text  #AssertionError 將導致退出
        return scrapy.Request(self.url_somebody, dont_filter=True, meta={'proxy': 'http://127.0.0.1:8888'})
        
    def parse(self, response):
        # inspect_response(response, self)
        self.log(os.getenv('xueqiu_nickname') in response.text)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

scrapy 通過FormRequest模擬登錄再繼續

1.參考

2.模擬登錄雪球

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

HTTP URL 詳解

創新工具：2024年開發者必備的一款表格控件（二）

車牌識別控制檯可快速整合二次開發

scrapy 通過FormRequest模擬登錄再繼續

scrapy_redis 相關: 查看保存的數據

lxml.etree.HTML(text) 解析HTML文檔

nginx 限制併發訪問及請求頻率

MySQl 查詢性能優化相關

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結