### -*- coding: cp936 -*-
###<a href="http://home.51cto.com" target="_blank">家園</a>
##import urllib
##str0='<a href="http://home.51cto.com" target="_blank">家園</a>'
##href=str0.find('<a href')
##print href
##com=str0.find('.com"')
##print com
##url=str0[href+9:com+4]
##print url
##content=urllib.urlopen(url).read()
###print content
##filename=url[-9:]
##print filename
##open(filename,'w').write(content)
####_________________________________
import urllib
url = ['']*50
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()
i = 0
title = con.find(r'<a title=')
href = con.find('href=',title)
html = con.find('.html',href)
while title !=-1 and href != -1 and html != -1 and i < 50 :
url[i] = con[href + 6:html + 5]
print url[i]
title = con.find('<a title=',html)
href = con.find('href=',title)
html = con.find('.html',href)
i = i + 1
else:
print 'find end!'
j = 0
while j < 50:
content = urllib.urlopen(url[j]).read()
open('hanhan/'+url[j][-26:],'w').write(content)
j = j + 1
else:
print "over"
##
##--------------------------------------------
網頁抓取
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
註冊個博來保存一些文章
zinejo
2019-02-23 13:50:47
菜鳥創建優秀網頁的6個好習慣.
verytt
2019-02-23 13:40:45
學習隨筆--網頁(表單框架模板等)
瓦蘭
2019-02-23 13:19:08
IE無法打開網頁的常見原因及解決!
zorro8106
2019-02-23 12:52:59
(JQuery學習筆記)利用jquery製作網頁導航定位
w1sw
2019-02-23 00:33:03
iframe裏面內容自動跳轉問題解決辦法
wjj8899867
2019-02-23 00:29:40
JS module的導出和導入
KevinYan
2019-02-24 21:34:55
Java-第六章-用for和if-elseif 完整了用戶登錄信息驗證
瘋子偉偉
2019-02-23 00:42:42
二維碼生成
StringLong
2019-02-23 00:41:58
android 控件跟隨手指移動
huangwenwenlili
2019-02-23 00:41:23
JAVA中獲取當前系統時間,日期並格式化輸出
kb85192363
2019-02-23 00:17:46