python項目之爬取代理的ip地址

原創

小六工作室

2020-02-24 19:35

python項目之爬取代理的ip地址

爬取網站的代理ip地址，解析，保存爲文本文件。

練習源碼

# coding = utf-8

####################################################
# coding by 劉雲飛
####################################################

import requests
import re

URL_S="http://www.xicidaili.com/"
headers = {
    'Host':'www.xicidaili.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
    'Cookie':'_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJTYxMDdmMjBlZGVjMTMyN2QxZjVmMTM1OGI1ZWRiNTVmBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMVQzaWNQazE2ZHovZ0NReWFKeFpMakp3dURJOVpyMkZXNUp6WUVqNjJJZ2c9BjsARg%3D%3D--fcb2c5aed90070f18b85d2262278f9e5811f6b56; CNZZDATA1256960793=1456382766-1453291871-http%253A%252F%252Fwww.baidu.com%252F%7C1453291871',
    'Connection':'keep-alive',
    'If-None-Match': 'W/"aa248d9ab9daa155024a37bbfb5ce775"',
    'Cache-Control': 'max-age=0'
}

sess = requests.session()
resp = sess.get(URL_S,headers = headers)
text = resp.text
comp = re.compile(r'(?isu)<td>(\d+)\.(\d+)\.(\d+)\.(\d+)</td>\s*<td>(\d+)</td>')
all_ip = comp.findall(text)
str_all = ""

for ip in all_ip:
    str_all += ip[0]+'.'+ip[1]+'.'+ip[2]+'.'+ip[3]+'.'+ip[4]+"\n"
    print(ip)

with open('ip.txt','w') as f:
    f.write(str_all)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

獲取遷木網QS世界大學排名信息

處理網址：http://www.qianmu.org/ranking/1528.htm # 獲取qianmu遷木網QS世界大學排名信息 import requests from lxml import etree import re

执笔写回憶

2020-07-05 18:00:13

Python+Scrapy爬蟲實戰

目錄1. Scrapy簡介與實例解析2. 解析html文件中的下載地址3. 對比文件是否需要更新4. 使用Scarpy爬取文件創建爬蟲settings.pyitems.pytestone.pypipelines.py啓動爬蟲5.

太阳花的小绿豆

2020-07-01 03:39:44

Doccano標註系統安裝與二次開發

Doccano標註系統安裝與二次開發（機器學習從業開發者標註工具，支持多語言）文章目錄Doccano標註系統安裝與二次開發（機器學習從業開發者標註工具，支持多語言）Doccano標註系統安裝1.1 linux上單獨部署1.1 l

带着梦想飞翔

2020-06-25 16:23:22

python調用文件對話框獲得文件夾路徑名稱--實用刪除文件小工具

""" 此代碼用於刪除文件夾下面以txt結尾的文件（同理將.txt-->.py可以刪除py文件）借用pyqt5調用文件選擇對話框看起來比較人性化點本來是用win32ui的，但是win32ui不太人性化，不能選擇文件夾，需要經過一

2020-06-23 12:51:29

python項目之 ftp服務器

python項目之 ftp服務器源碼參考官方簡介自己編寫其中目錄是文字會變成亂碼，是由於內部採用字符非unicode，此問題待解決。使用庫pyftpdlib # -*- coding: utf-8 -*- # edit

小六工作室

2020-06-20 03:09:09

一寸照白底改紅底

使用 python3 的 PIL 庫，使用其中 Image.open 方法打開，然後使用 getpixel() 方法獲取像素信息，若爲白色則使用 putpixel() 改爲紅色。但選區不會選，只能大致改一下，若有解決方法請指教

2020-06-19 19:02:18

python爬蟲登錄豆瓣（二）

之前使用 requests 庫普通登錄了豆瓣，這次爲帶驗證碼登錄。（故意幾次使用錯誤的帳號和密碼登陸可以出現驗證碼登錄，也因此這次請求時需要提交 cookies，說明之前幾次密碼是錯誤的）同上一篇的過程一樣，能過 chro

2020-06-19 19:02:18

用 python 將圖片軟化爲字符串

網上已有很多教程，本文可當一個參考。 from PIL import Image img = Image.open("1.jpg") # 打開一個圖片，並返回圖片對象 w,h = img.size # 返回圖片寬

2020-06-19 19:02:06

python爬蟲登錄豆瓣（一）

使用第三方庫 requests 通過使用 chrome 瀏覽器抓包，可以得到這個請求，將其中的 headers 和 data 提交。最後輸出到 douban.html 的文件中，即可查看登錄的界面。這次請求是第一次登錄，所有界

2020-06-19 17:58:41

猜數字—— python 圖形化界面編程初探

本文難度並不高，只是對 python 的 tkinter 庫的一個初步運用，算是初控圖形化界面界面編程吧。具體實現的是一個猜數據遊戲，程序會從 1-10 中隨機取一個數，然後由玩家猜，猜對爲止。 from tkinter im

2020-06-19 17:58:41

Python項目-----CMDB自動化資產掃描

文章目錄一、項目介紹二、項目環境搭建連接並配置遠程服務器遠程服務器虛擬環境的配置遠程服務器解釋器和目錄映射的配置三、MySQL數據庫配置Django數據庫配置初次運行項目：查看後臺管理頁面四、Django工程多配置文件五、Djan

2020-06-16 06:40:34

分類問題中已有準確率、精準率和召回率，爲什麼還要提出ROC？

在上一篇“分類問題中的幾個衡量指標”中，我們介紹了分類問題中常見的幾種分類精度衡量指標。這些指標從整體到個體等不同程度上地體現了分類模型的分類精度。那麼，分類問題中已有準確率、精準率和召回率等指標，爲什麼還要提出ROC呢？什麼是ROC呢？

liushuijingying2

2020-06-12 23:16:48

2、數據庫設計

商品的SKU、SPU及其之間的關係： https://www.cnblogs.com/lingyejun/p/9569563.html 表的設計：也用Redis來保存用戶瀏覽記錄（快速保存）

icy城市稻草人

2020-06-09 08:28:17

WSGI、uWSGI、uwsgi、Nginx概念知識及uWSGI+Django+Nginx的工作原理流程與部署歷程

uWSGI+Django+Nginx的工作原理流程與部署歷程：https://blog.csdn.net/c465869935/article/details/53242126 WSGI WSGI的全稱是Web Server Gatewa

人生苦短，python陪伴

2020-06-08 07:28:08

爬蟲項目（分析awesome-java項目流行趨勢）

項目詳情：https://github.com/BlackerGod/Crawler 成品展示：點擊訪問（ps:我在服務器上設置了定時任務每天五點自動爬取數據，但git不穩定，很有可能爬不到數據，可能表格爲空）一、項目需求在

2020-06-19 10:58:05

24小時熱門文章

.NET開源強大、易於使用的緩存框架 - FusionCache

最新文章

最新評論文章