BeautifulSoup及lxml使用小記

  1. Bs4中常用findallclass_來尋找節點

book_cover=soup.find_all("div",class_='cover')

得到的結果是存在列表中的bs4 tree,仍舊可以用findall遍歷

 

遇到有些只有標籤的,沒有任何屬性的,想要的到標籤中的內容,可以尋找兄弟節點

find_next_siblings()找下一個兄弟節點

          還有find_parent()找父節點

find_all_next()找到與當前元素靠近的所有對象。而find_next()找到離當前元素最接近的對象。

這些都與previous相對應

 2.lxml中可以用cssselectxpath尋找節點

books=html.cssselect('div.covera')

 

   3.  獲得屬性的值:

         兩者都可以用get("屬性名")的方法

       也可以用soup.tagName['屬性名']

   4.  獲得標籤包含的文本:

         定位到節點後使用 .text屬性   

 

    5.注意區別findfindallfind找到的結果只有一個,以樹結構返回,findall找到所有滿足條件的,以列表形式返回

    6.在抓取內容時,注意觀察,有規律的話找到所有包含想要信息的樹塊,然後循環在一個樹塊中找

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章