爬蟲3

import urllib
con=urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()
url=['']*40
title=con.find(r'<a title=')


href=con.find(r'href=',title)


html=con.find(r'.html',href)
x=0
while title!=-1 and href!=-1 and html!=-1 and x<40:
url[x]=con[href+6:html+5]
print '%d' % x,url[x]
title=con.find(r'<a title=',html)
href=con.find(r'href=',title)
html=con.find(r'.html',href)
x+=1
else:
'find end'

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章