- Bs4中常用findall與class_來尋找節點
book_cover=soup.find_all("div",class_='cover')
得到的結果是存在列表中的bs4 tree,仍舊可以用findall遍歷
遇到有些只有標籤的,沒有任何屬性的,想要的到標籤中的內容,可以尋找兄弟節點
如find_next_siblings()找下一個兄弟節點
還有find_parent()找父節點
find_all_next()找到與當前元素靠近的所有對象。而find_next()找到離當前元素最接近的對象。
這些都與previous相對應
2.lxml中可以用cssselect和xpath尋找節點
books=html.cssselect('div.covera')
3. 獲得屬性的值:
兩者都可以用get("屬性名")的方法
也可以用soup.tagName['屬性名']
4. 獲得標籤包含的文本:
定位到節點後使用 .text屬性
5.注意區別find與findall,find找到的結果只有一個,以樹結構返回,findall找到所有滿足條件的,以列表形式返回
6.在抓取內容時,注意觀察,有規律的話找到所有包含想要信息的樹塊,然後循環在一個樹塊中找