Simple Web Crawler Used Python

原創

2018-08-24 20:04

#!/usr/bin/python
# simple web crawler
import urllib2
import re

# download a web file (.html) of url with given name
def downURL(url, filename):
	try:
		fp = urllib2.urlopen(url)
	except:
		print 'download exception'
		return False
	op = open(filename, 'wb')
	while True:
		s = fp.read()
		if not s:
			break
		op.write(s)
	
	fp.close()
	op.close()
	return True

# get urls in a web
def getURLs(url):
	try:
		fp = urllib2.urlopen(url)
	except:
		print 'get url exception'
		return []
	pattern = re.compile('http://[\w\.]+')
	while True:
		s = fp.read()
		if not s:
			break
		urls = pattern.findall(s)
	fp.close()
	return urls

# crawl web in one level
def spider(startURL):
	urls = []
	urls.append(startURL)
	urllist = getURLs(startURL)
	for url in urllist:
		print url
		if urls.count(url) == 0:
			urls.append(url)
	i = 0
	while True:
		if len(urls) <= 0:
			break
		else:
			url = urls.pop(0)
			i = i + 1
			downURL(url, str(i) + '.html')
	return True

# test
spider('http://www.baidu.com')

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

鼠標控制軟件有可能和虛擬機軟件產生衝突

最近Virtualbox虛擬機經常卡頓、鼠標無法點擊，給工作帶來很多麻煩。有一次身子在開會的時候直接卡死，特別尷尬。。一開始以爲是輸入法或者操作系統補丁的問題，但調整後並不能解決。更改虛擬機的各種設置，全部無效。之後升級了Virt

2024-06-13 14:37:05

比特幣區塊檢查

比特幣採用Pow共識機制，即不斷調整Nonce值，對區塊頭做雙重SHA256哈希運算，使得結果滿足給定數量前導0的哈希值的過程。其中前導0的個數，取決於挖礦難度，前導0的個數越多，挖礦難度越大。 1 塊兒產生時的檢查首先，生成鑄幣交易，並

2024-06-13 14:36:55

自定義MyBatis插件

插件原理回顧在前面，我們通過 MyBatis插件機制介紹與原理分析了 MyBatis 插件的基本原理，但是可能還只是理論上的分析，沒有實戰的鍛鍊可能理解的還是不夠透徹。接下來，我們通過自定義插件實例來進一步深度理解 MyBatis 插件

燈塔下的守望者

2024-06-13 14:36:45

高性能版本的零內存分配LikeString函數（ZeroMemAllocLikeOperator）

繼上一篇文章在.NET Core，除了VB的LikeString，還有其它方法嗎？(四種LikeString實現分享)分享了四種實現方式，筆者對這四種實現方式，不管是執行性能還是內存分配性能上，都不太滿意。那麼是否有好的實現方法呢？答案是

2024-06-13 14:35:54

【java基礎】java線程的四種創建方式

1.繼承Thread類 2.實現Runnable接口因爲Runnable接口就是支持函數式編程的接口，可以這麼玩 3.實現Callable接口，用FutureTask<T>獲取返回值。FutureTask還是繼承的Runn

金大鑫要堅持

2024-06-13 14:32:24

【java基礎】線程池的狀態流轉

前言：首先要知道什麼是線程池？池化：數據庫連接池，線程池，字符串常量池線程是用來執行任務的，如果不用線程池，那麼線程每次使用前創建，使用後釋放，資源利用率低。所以說用線程池提高了線程對象利用率。所以可以用線程池完成，先創建好那麼

金大鑫要堅持

2024-06-13 14:32:24

微服務實踐之使用 kube-vip 搭建高可用 Kubernetes 集羣

實驗環境原理生成kube-vip靜態pod配置清單 export VIP=192.168.215.200 # 我的vip是192.168.215.200 export INTERFACE=ens33 #可以用 ip a 查看接口名稱

2024-06-13 14:30:24

Keyboard Maestro 常用的 Actions 記錄

前言使用 Keyboard Maestro 做自動化管理是，Actions太多了，總是記不住，這裏特意記錄一下正文觸發鍵盤按鍵 Type a Keystroke Categories: Interface Control Action

2024-06-13 14:27:44

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

前言今天大姚給大家分享一款.NET開源（MIT License）、免費、跨平臺、功能強大的繪圖庫，支持多平臺使用（包括：WPF、UWP、WinForm、Silverlight、Xamarin.iOS、Xamarin.Android、Xam

2024-06-13 14:27:24

一個開源且全面的C#算法實戰教程

前言算法在計算機科學和程序設計中扮演着至關重要的角色，如在解決問題、優化效率、決策優化、實現計算機程序、提高可靠性以及促進科學融合等方面具有廣泛而深遠的影響。今天大姚給大家分享一個開源、免費、全面的C#算法實戰教程：TheAlgorith

2024-06-13 14:27:24

重新搞黑魂1的mod

筆記本沒顯卡. 玩黑魂1, 不是重置版還可以. 裝上受死版之後, 需要打dsfix 的補丁. 設置: DSfix.ini # internal rendering resolution of the game # higher values

張博的博客

2024-06-13 14:25:14

C語言--右移左移

C語言--右移左移右移，高位補符號位，低位移除（正整數符號位爲0，負整數符號位爲1） 16 >> 2 等價爲 16 /（ 2 * 2）左移，高位移除，低位補零，最高位爲1時，表示負數。16 << 2 等價爲 16 *（ 2 * 2）

張博的博客

2024-06-13 14:25:14

Redis相關總結

一、緩存雪崩、緩存穿透現象：緩存雪崩：大量緩存同時過期、緩存中間件宕機緩存穿透：訪問不存在key、緩存過期解決：緩存雪崩：設置不同過期時間緩存穿透：不存在key也存入緩存、使用布隆過濾器、使用分佈式

2024-06-13 14:24:13

HbuilderX，找不到rollup/rollup-win32-x64-msvc

在使用HbuilderX,使用vue3開發uniapp時，我運行app，報錯，rollup組件找不到了。這個rollup是一個編譯js的工具，win32-x64的意思是採用windows版本64位的運行版本，msvc是說，需要windows

2024-06-13 14:22:53

sc-token傳參方式20240613

2024-06-13 14:20:13

24小時熱門文章

最新文章

最新評論文章