簡單的百度貼吧爬蟲

原創

2020-02-20 20:50

最近在學爬蟲，看了點視頻學了點東西，寫了一個百度貼吧的爬蟲上來

目前只是把爬取網頁信息，存儲到本地

#-*- coding:utf-8 -*-
# 識別中文註釋 

import urllib2

def load_page(url):

	user_agent ="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11"
	headers = {'User-Agent':user_agent}
	req = urllib2.Request(url,headers = headers)
	response = urllib2.urlopen(req)
	page = response.read()

	return  page

def tieba_spider(url,beginPage,endPage):
	'''
	貼吧小爬蟲
	'''
	for i in range(beginPage,endPage+1): 
		myurl = url + str(50*(i-1))
		print "url :" + myurl
		html = load_page(myurl)
		file_name =str(i)+".html"
		writeFile(file_name,html)

def writeFile(file_name,txt):
	f = open(file_name,'w')
	f.write(txt)
	f.close()


if __name__ == "__main__":
	url = raw_input("please input the url :")

	beginPage = int(raw_input("begin : "))
	endPage = int(raw_input("end : "))

	tieba_spider(url,beginPage,endPage)

過幾天有時間再學點正則表達式加進去

url：http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=

Nucky_

發佈了133 篇原創文章 · 獲贊 91 · 訪問量 23萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

簡單的百度貼吧爬蟲

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

Git 學習筆記三

Redis 學習筆記四

Redis 學習筆記二

JavaScript中的prototype

WebService三大基本元素 SOAP WSDL UDDI

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結