網頁數據抓取-接前文模擬登錄

過程:

      首先模擬登錄(如果需要)

其次

       1、發送HttpRequest請求。

  2、接收HttpResponse返回的結果。得到特定頁面的html源文件。
  3、取出包含數據的那一部分源碼。
  4、根據html源碼生成HtmlDocument,循環取出數據。(先前第一反應是正則匹配呢)

  5、寫入數據庫。



解析HTML準備使用HTML PARSER.

這是個例子。介紹了他的幾方面用途。

1.解析HTML

2.讀寫文件和內存對象功能

3居然還包括獲抓取數據功能,取某個URL的內容。

http://blog.163.com/xyz_1112/blog/static/386944022011329112747396/

待使用後參考官方文檔相信有更多理解


以前出版及金融相關領域的IT,很多很多基於XML的工作(2年),以及SOAP WEBSERVICE(1年)。

現在做互聯網產品多用到json以及基於REST的webservice,忍不住要比較一下

1.xml vs json :與XML一樣,JSON也是基於文本的,且它們都使用Unicode編碼,同樣具有可讀性。XML比較適合於標記文檔,而JSON卻更適合於實時數據交換處理

2.soap vs rest:  rest的設計遵循 CRUD原則,正如數據庫對數據的增刪改查,rest對網絡上每個URL定義的資源進行增上改查。通過對不同粒度的資源的CRUD操作的邏輯組合,網絡開始“互動”起來,web 2.0起來


發佈了31 篇原創文章 · 獲贊 0 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章