python 爬蟲 beautifulsoup

參考:

https://www.icourse163.org/course/BIT-1001870001

https://blog.csdn.net/u013378306/article/details/54409013 

 

beautifulsoup

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

print(soup.prettify()) # 友好顯示

 

下行遍歷:

上行遍歷:

平行遍歷:

 

提取信息:

<>.find_all(name, attrs, recursive, string, **kwargs) # 返回一個bs4.element.Tag的列表

name可以是關於標籤的列表、正則表達式(?經過編譯的)、函數(對tag進行過濾)

string: <>…</>中字符串區域的檢索字符串(就是隻檢索非屬性字符串)

<tag>(..) 等價於<tag>.find_all(..)
soup(..)  等價於soup.find_all(..)

 

中文字符的空格填充chr(12288)

 

bs可以使用類似CSS的語法,tag.select(css),tag是html中的一個element節點元素

re:正則表達式

match對象屬性:string(待匹配字符串),re(匹配時使用的正則表達式),pos(正則表達式搜索文本的開始位置),endpos

方法:group(0),start(), end(), span()

默認使用貪婪匹配,即輸出匹配最長的子串

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章