10/27python學習

第13、14章沒學
1、屏幕抓取是通過程序下載網頁並從中提取信息的過程。從概念上講,這項技術需要下載數據並對其進行分析。例如,可使用urllib來獲取網頁的HTML代碼,再使用正則表達式或其他技術從中提取信息
2、Tidy是用於對格式不正確且不嚴謹的HTML進行修復的工具。
有多個用於python的Tidy庫包裝器,可從Tidy網站(http://html-tidy.org)獲取可執行的二進制版本。有了二進制版本後,可使用模塊subprocess來運行Tidy程序
3、在XHTML中,必須先(使用標籤

)顯式地結束當前段落,它是一種XML方言,可使用各種出色的工具來處理。
要對Tidy生成的格式良好的XHTML進行解析,可使用標準庫模塊html.parser中的HTMLParser類。
使用HTMLParser意味着繼承它,並重寫各種事件處理方法。
就屏幕抓取而言,通常無需實現所有的解析器回調方法,也可能無需創建整個文檔的抽象表示就能找到所需的內容,只需跟蹤找到目標內容所需的信息就可以了。
4、使用模塊HTMLParser的屏幕抓取程序
在這裏插入圖片描述
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章