如何使用ip代理爬蟲

原創

2020-02-22 04:38

import urllib
import socket
import urllib2
import time
from bs4 import BeautifulSoup


url = 'http://www.xicidaili.com/nn/'
target="https://msdn.microsoft.com"
dirt={}
proxy = {'http': '223.15.151.149:8888'}
proxy_support = urllib2.ProxyHandler(proxy)
# opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler(debuglevel=1))
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)

# 添加頭信息，模仿瀏覽器抓取網頁，對付返回403禁止訪問的問題
# i_headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
i_headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.48'}


f = open("proxy.txt","w")

for i in range(1,1504):
	new_url=url+str(i)
	print new_url
	time.sleep(3)
	req = urllib2.Request(new_url, headers=i_headers)
	html = urllib2.urlopen(req).read()
	soup=BeautifulSoup(html,"html.parser")
	#print soup.body
	ips = soup.find_all('tr')
	#print ips

	for x in range(1,len(ips)):
	    ip = ips[x]
	    tds = ip.find_all("td")
	    #print tds[1].text,tds[2].text
	    dirt[tds[1].text]=tds[2].text
	    f.write(tds[1].text+":"+tds[2].text+"\n")
print len(dirt)
socket.setdefaulttimeout(3)

發佈了78 篇原創文章 · 獲贊 28 · 訪問量 9萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

sublime text4 定製記錄

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:07

sublime text定製

經過測試sublime text4用於python開發時，使用pyright做爲lsp服務比較好，能夠提示出numpy的各種函數。但有時提示也太多了，類似於idea，會把所有能查到的變量都提示出來，我更需要的是類似 vs.net 那樣的精確

2024-06-07 01:14:04

無需搭建環境，零門檻帶你體驗Open-Sora文生視頻應用

本文分享自華爲雲社區《Open-Sora 文生視頻原來在AI Gallery上也能體驗了》，作者：碼上開花_Lancer。體驗鏈接：Open-Sora 文生視頻案例體驗不久前，OpenAI Sora 憑藉其驚人的視頻生成效果迅速走紅，在

2024-06-06 10:56:52

有沒有python在flask框架下開發的實際案例？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【進擊的python】問了一個Python web開發的問題，問題如下：各位大佬，有沒有python在flask框架下開發的實際案例？？？求分享二、實現過程 git

2024-06-06 10:01:59

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

繼續運行 ?* 回憶上次內容上次使用shell環境中的命令命令作用 c

2024-06-05 12:31:14

Python網絡爬蟲要清理cookies 才能再爬，有啥解決方法嘛？

大家好，我是Python進階者。一、前言前幾天在Python鑽石交流羣【大寫一個Y】問了一個Python基網絡爬蟲的問題，問題如下：大佬們請教個問題我做了個在某眼查抓地址數據的爬蟲，程序中做了隨機2-5秒的循環延時，現在大概爬8

2024-06-05 10:02:06

自動化Reddit圖片收集：Python爬蟲技巧

引言 Reddit，作爲一個全球性的社交平臺，擁有海量的用戶生成內容，其中包括大量的圖片資源。對於數據科學家、市場研究人員或任何需要大量圖片資源的人來說，自動化地從Reddit收集圖片是一個極具價值的技能。本文將詳細介紹如何使用Pyth

2024-06-05 00:06:19

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

直播預告｜手把手教你玩轉 Milvus Lite ！

Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由 Zilliz 基於全球最受歡迎的開源向量數據庫 Milvus（ht

2024-06-03 21:25:13

重磅推出：Milvus Lite 正式上線，幾秒內即可輕鬆搭建 GenAI 應用

和超薄筆記本一樣輕便、強大的 Milvus Lite 正式上線！ Milvus Lite（https://milvus.io/docs/milvus_lite.md）是一個輕量級向量數據庫，支持本地運行，可用於搭建 Python 應用，由

2024-06-02 02:22:45

peewee的動態Model

有一個客戶需要同一個Model，可以創建不同的數據庫的表單（自定表單名稱）。按官方文檔，自定義table_name的方法如下： from peewee import * contacts_db = SqliteDatabase('con

2024-05-31 21:48:26

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

24小時熱門文章

最新文章

最新評論文章