[Python]網頁信息抓取

需求描述:獲取http://www.gtis.com.cn/news1/index.jhtml上的37頁共366條新聞標題

開發環境:python 3.3

解決方案:

import urllib.request
from html.parser import HTMLParser

class myparser(HTMLParser):
  def __init__(self):
    HTMLParser.__init__(self)
  def handle_starttag(self,tag,attrs):
    if tag=='a':
      for name,value in attrs:
        if name=='title':
          print(value)

if __name__=='__main__':
  my=myparser()

  for i in range(1,38):
    if i==1:
      url='http://www.gtis.com.cn/news1/index.jhtml'
    else:
      url='http://www.gtis.com.cn/news1/index_%s.jhtml'%i
    req = urllib.request.Request(url)
    with urllib.request.urlopen(req) as response:
      html = response.read().decode('utf-8')
    print('Page %s'%i)
    my.feed(html)

結果:

Page 1
江蘇國土資源科技項目通過驗收評審
江蘇省第二次土地調查農村土地調查省級數據庫及管理系統項目通過驗收
“國圖土地利用現狀變更軟件”首家通過中國土地勘測規劃院專項軟件測評
2012年度太原市農村土地變更調查軟件應用培訓
公司中標西安市國土資源局土地利用總體規劃數據庫建設與規劃系統建設項目
公司榮獲兩項2012年度江蘇省優秀測繪工程三等獎
公司中標大慶市農村地籍管理信息系統項目
常州市土地登記(檔案)數據集成及管理系統項目通過驗收
安達市、肇東市土地利用總體規劃修改方案通過驗收
公司中標牡丹江市土地變更調查與遙感監測覈查項目
Page 2
安達市、肇東市土地利用總體規劃定期評估通過驗收
公司中標遼寧省農村集體土地確權登記發證2012年度省級項目-數據庫管理系統建設
新沂國土資源局村莊地籍建庫系統培訓
......

Page 37
公司中標漣水縣城鎮土地調查項目 
慶祝我公司多個項目獲得2007年度江蘇省國土資源科技創新獎 
推進社會主義新農村建設項目成果通過省廳驗收 
慶祝我公司成爲ArcGIS全球戰略合作伙伴 
國土資源電子政務平臺3.0隆重推推出 
慶祝我公司ArcGIS國土培訓中心正式成立


參考資料:

python模塊之HTMLParser: 解析html,獲取url
Python3 HTML Parser 以統一發票對獎爲例
python 解析html——以人人網詳細資料頁爲例
Python3 HTML 解析器
用python爬蟲抓站的一些技巧總結
Python3僞裝瀏覽器爬蟲讀取網頁內容

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章