HTTP隧道與Proxy-Tunnel技術

作爲爬蟲工作者,我們在日常數據採集中會使用代理代理ip去解決問題。很多時候我們使用的代理都是通過api模式去獲取代理然後使用,這樣的方式對我們的好處就是可以自己管理ip池。最近很多廠商都提供了一種新的模式,隧道代理。這種隧道代理有個很特別的就是使得客戶端感覺不到代理的存在,在客戶端看來,它是直接跟要請求的資源服務器在通信。對於我們很多新手來說是不錯的方式,不需要花很多的時間去和代理糾結。

在使用隧道HTTP過着中涉及ip的兩種模式,即Proxy-Tunnel自主切換IP,該模式適合一些需要登陸、Cookie緩存處理等爬蟲需要精確控制IP切換時機的業務。 爬蟲程序可以通過設置HTTP頭Proxy-Tunnel: 隨機數, 當隨機數相同時,訪問目標網站的代理IP相同。比如:

需要登錄,獲取數據兩個請求在一個IP下,只需對這組請求設置相同Proxy-Tunnel,例如:Proxy-Tunnel: 12345, 該組請求在代理有效期內使用相同的代理IP。但是需要注意的是同一時間不同請求組可以設置不同Proxy-Tunnel: 隨機數,併發完成數據爬取。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章