Python爬蟲 —— 知乎之selenium模擬登陸獲取cookies+requests.Session()訪問+session序列化

原創

wufeil7

2018-12-25 19:45

即解決了request無法直接script，模擬鼠標操作，又解決了selenium無Session難以維持會話的問題。
以下案例經過改版可以實現代理池和cookies池的應用

coding:utf-8

from selenium import webdriver
import requests
import sys
import time
from lxml import etree
import cPickle
import os

reload(sys)

sys.setdefaultencoding(‘utf-8’)

class Zhihu:
def init(self,homeurl):
self.homeurl = homeurl

def save_session(self,session): #保存session，下次可直接使用，避免再次登錄
    with open('session.txt','wb') as f:
        cPickle.dump(session, f)
        print "Cookies have been writed."

def load_session(self):     #加載session
    with open('session.txt', 'rb') as f:
        s = cPickle.load(f)
    return s

def GetCookies(self):       #初次登錄用selenium模擬，並獲得cookies
    browser = webdriver.Chrome()
    browser.get("https://www.zhihu.com/signin")
    browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[1]/div[2]/div[1]/input").send_keys("13060882373")
    browser.find_element_by_xpath("//main//div[2]/div[1]/form/div[2]/div/div[1]/input").send_keys("xxxxxx")
    browser.find_element_by_xpath("//main//div[2]/div[1]/form/button").click()
    time.sleep(10)
    cookies = browser.get_cookies()
    browser.quit()
    return cookies

def get_session(self):  #獲取session
    s = requests.Session()
    if not os.path.exists('session.txt'):   #如果沒有session，則創建一個，並且保存到文件中
        s.headers.clear()
        for cookie in self.GetCookies():
            s.cookies.set(cookie['name'], cookie['value'])
        self.save_session(s)
    else:                                   #如果已存在session，則直接加載使用
        s = self.load_session()
    return s

def Crawl(self):    #開始爬取
    s = self.get_session()
    html = s.get(self.homeurl).text
    html_tree = etree.HTML(html)
    items = html_tree.xpath('//main//div[1]/div[2]//div[@class="ContentItem AnswerItem"]/@data-zop')
    for item in items:
        content = eval(item)
        authorName = content['authorName']
        title = content['title']
        print authorName + "回答了：" + title

zhihu = Zhihu(‘https://www.zhihu.com/’)
zhihu.Crawl()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python爬蟲 —— 知乎之selenium模擬登陸獲取cookies+requests.Session()訪問+session序列化

coding:utf-8

reload(sys)

sys.setdefaultencoding(‘utf-8’)

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

網絡爬蟲的祕密：如何高效地抓取JD.com視頻鏈接

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

圖神經網絡框架DGL學習 102——圖、節點、邊及其特徵賦值

圖神經網絡框架DGL學習——101（入門）

seaborn顏色

Python爬蟲 —— 知乎之selenium模擬登陸獲取cookies+requests.Session()訪問+session序列化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結