Python網絡爬蟲(2)處理網頁數據find和findall函數

findAll(tag, attributes, recursive, text, limit, keywords)

find(tag, attributes, recursive, text, keywords)

標籤參數tag :傳一個標籤的名稱或多個標籤名稱組成的 Python 列表做標籤參數

屬性參數attributes 是用一個 Python 字典封裝一個標籤的若干屬性和對應的屬性值

遞歸參數 recursive 是一個布爾變量。你想抓取 HTML 文檔標籤結構裏多少層的信息?如果 recursive 設置爲 True ,findAll 就會根據你的要求去查找標籤參數的所有子標籤,以及子標籤的子標籤。如果 recursive 設置爲 False ,findAll 就只查找文檔的一級標籤。findAll 默認是支持遞歸查找的(recursive 默認值是 True );

文本參數 text 用標籤的文本內容去匹配,而不是用標籤的屬性

這只是用來尋找文本比較常用的

  • 四種BeautifulSoup對象:
BeautifulSoup對象
BeautifulSoup.tag對象
NavigableString對象:
用來表示標籤裏的文字,而不是標籤。
Comment對象:
用來查找HTML文檔的註釋標籤,<!--XXX-->
  • 導航樹
如果想要通過標籤在文檔中的位置來查找標籤,則需要導航樹。BeautifulSoup對象本身就是一個導航樹,我們直接通過標籤來訪問。
除此之外,我們還可以通過children來訪問一個標籤的子標籤,descendants來訪問後代標籤,parent來訪問父標籤,next_siblings來訪問兄弟標籤,previpus_sibling來訪問前一個兄弟標籤等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章