爬蟲-使用代理ip，使用session

原創

大神，起风了

2019-03-20 18:15

1、使用代理ip和普通requests.get請求抓取頁面流程一樣，只是多了個參數proxies.

http://www.goubanjia.com/ 找代理IP，注意http，https，選與目標網址一樣的協議。
proxies字典格式的

import requests

url='https://www.baidu.com/s?wd=ip&ie=utf-8'

proxies={
    "https":"218.60.8.99:3129"    
}

headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}


response=requests.get(url=url,proxies=proxies,headers=headers)

with open('baiduip.html','w',encoding='utf-8') as f:
    f.write(response.text)

2、使用session抓取需要登陸之後才能看到的頁面數據

獲取session對象：session=requests.session()
session.post請求登陸url存儲session信息
session.get請求獲取登陸之後的個人頁面
以豆瓣爲例：

import requests
# 先用session登陸獲取存儲session
session=requests.session()
login_url='https://accounts.douban.com/j/mobile/login/basic'

data={
'ck':'',
'name':'',
'password':'',
'remember':'false',
'ticket':''
    
}

headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

login_response=session.post(url=login_url,data=data,headers=headers)

# 再用session獲取想要的頁面 https://www.douban.com/people/193627830/
url='https://www.douban.com/people/1230/'
response=session.get(url=url,headers=headers)
with open('doubanlogin.html','w',encoding='utf-8')as f:
    f.write(response.text)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京東二面：爲什麼Netty要造FastThreadLocal？

FastThreadLocal 從字面意義上來看，它是“Fast”+“ThreadLocal”的結合體，寓意爲快速的 ThreadLocal。那麼，問題來了，Netty 爲什麼要再造一個 FastThreadLocal？FastThread

Java中文社羣

2024-05-28 14:33:04

微信小程序預約視頻號直播

一、概述微信小程序提供了可以喚起預約視頻號直播彈窗的接口 reserveChannelsLive，該接口接收一個參數 noticeId，通過 getChannelsLiveNoticeInfo 接口獲取。因此，過程如下：查看視頻號 i

2024-05-28 14:22:23

公衆號5月C#/.NET熱文一覽

C#/.NET/.NET Core全面的學習、工作、面試指南知識庫轉眼之間維護DotNetGuide（C#/.NET/.NET Core學習、工作、面試指南知識庫）已經持續超過了三年多的時間，Commit提交數也超過900+，在前幾天Gi

2024-05-28 14:22:13

Spring Boot 3.3 正式發佈，王炸級更新，應用啓動速度直接起飛！

大家好，我是R哥。最新消息，Spring Boot 一次性發布了 3 個版本： 3.3.0 3.2.6 3.1.13 Spring Boot 3.3 正式發佈了，3.1.x 在前幾天也停止維護了。最新的支持版本如下：從路線圖可以

2024-05-28 14:21:32

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

作者：l拉不拉米鏈接：https://juejin.cn/post/7031445206152577061 一、前言公司剛入職了一名中級Java開發，經過一個星期的適應學習，各方面表現還不錯，於是分配了一個小的迭代給新人做。需求很簡

2024-05-28 14:21:32

徹底搞清楚vue3的defineExpose宏函數是如何暴露方法給父組件使用

前言衆所周知，當子組件使用setup後，父組件就不能像vue2那樣直接就可以訪問子組件內的屬性和方法。這個時候就需要在子組件內使用defineExpose宏函數來指定想要暴露出去的屬性和方法。這篇文章來講講defineExpose宏函數是

你假裝沒察覺

2024-05-28 14:21:21

🔥 FolkMQ v1.5.1 發佈（“新式” 國產消息中間件）

FolkMQ 是個“新式”的消息中間件。強調：“小而巧”、“簡而強”。功能簡表角色功能生產者（客戶端）發佈普通消息、Qos0消息、定時消息、順序消息、可過期消息、事務消息、廣播消息消費者（客戶端）訂閱

2024-05-28 14:21:21

cv2讀取圖片中文路徑問題

https://blog.csdn.net/liuqinshouss/article/details/78696032

張博的博客

2024-05-28 14:20:01

盟軍敢死隊2官網

http://www.mj141319.imotor.com/index.php 裏面有盟軍敢死隊2 五百多關的下載. 需要一個一個安裝.

張博的博客

2024-05-28 14:20:01

git 下載大陸鏡像地址

https://github.com/waylau/git-for-win?tab=readme-ov-file

張博的博客

2024-05-28 14:20:01

win11休眠功能

https://www.sysgeek.cn/windows-11-hibernate/

張博的博客

2024-05-28 14:20:01

記一次 .NET某工控WPF程序被人惡搞的卡死分析

一：背景 1. 講故事這一期程序故障除了做原理分析，還順帶吐槽一下，熟悉我的朋友都知道我分析dump是免費的，但免費不代表可以濫用我的寶貴時間，我不知道有些人故意惡搞卡死是想幹嘛，不得而知，希望後面類似的事情越來越少吧！廢話不多說，我們來

2024-05-28 14:15:51

《最新出爐》系列入門篇-Python+Playwright自動化測試-48-Route類攔截修改請求-上篇

1.簡介在日常工作和學習中，自動化測試的時候：在加載頁面時，可能頁面出現很多不是很重要或者不是我們所關注的，這個時候我們就可以選擇不加載這些內容，以提高頁面加載速度，節省資源。例如：可能頁面上圖片比較多，而我們又不關心圖片內容。那麼，在

2024-05-28 14:14:40

使用阿里雲oss,同一個域名前端實現通過路徑區分來訪問多個不同的項目

前端存放在阿里雲oss上，域名cname解析到阿里雲cdn,cdn指向阿里雲oss存儲 oss中存放的相對目錄是這樣的： a項目代碼目錄/a項目靜態文文件 a項目代碼目錄/a項目首頁文件index.html a項目代碼目錄/b項

2024-05-28 14:14:00

C++文件/流

C++文件讀寫（文本文件/二進制文件）一、前言常見的文件類型可分爲兩種：文本文件和二進制文件。文本文件的閱讀相對容易，可以使用記事本/Notepad++/VS Code等應用程序直接打開閱覽；然而二進制文件由0/1序列組成，直接打卡二

2024-05-28 14:13:40

24小時熱門文章

最新文章

最新評論文章