過程:
首先模擬登錄(如果需要)
其次
1、發送HttpRequest請求。
2、接收HttpResponse返回的結果。得到特定頁面的html源文件。3、取出包含數據的那一部分源碼。
4、根據html源碼生成HtmlDocument,循環取出數據。(先前第一反應是正則匹配呢)
5、寫入數據庫。
解析HTML準備使用HTML PARSER.
這是個例子。介紹了他的幾方面用途。
1.解析HTML
2.讀寫文件和內存對象功能
3居然還包括獲抓取數據功能,取某個URL的內容。
http://blog.163.com/xyz_1112/blog/static/386944022011329112747396/
待使用後參考官方文檔相信有更多理解
以前出版及金融相關領域的IT,很多很多基於XML的工作(2年),以及SOAP WEBSERVICE(1年)。
現在做互聯網產品多用到json以及基於REST的webservice,忍不住要比較一下
1.xml vs json :與XML一樣,JSON也是基於文本的,且它們都使用Unicode編碼,同樣具有可讀性。XML比較適合於標記文檔,而JSON卻更適合於實時數據交換處理
2.soap vs rest: rest的設計遵循 CRUD原則,正如數據庫對數據的增刪改查,rest對網絡上每個URL定義的資源進行增上改查。通過對不同粒度的資源的CRUD操作的邏輯組合,網絡開始“互動”起來,web 2.0起來