參考:
https://www.icourse163.org/course/BIT-1001870001
https://blog.csdn.net/u013378306/article/details/54409013
beautifulsoup
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')
print(soup.prettify()) # 友好顯示
下行遍歷:
上行遍歷:
平行遍歷:
提取信息:
<>.find_all(name, attrs, recursive, string, **kwargs) # 返回一個bs4.element.Tag的列表
name可以是關於標籤的列表、正則表達式(?經過編譯的)、函數(對tag進行過濾)
string: <>…</>中字符串區域的檢索字符串(就是隻檢索非屬性字符串)
<tag>(..) 等價於<tag>.find_all(..)
soup(..) 等價於soup.find_all(..)
中文字符的空格填充chr(12288)
bs可以使用類似CSS的語法,tag.select(css),tag是html中的一個element節點元素
re:正則表達式
match對象屬性:string(待匹配字符串),re(匹配時使用的正則表達式),pos(正則表達式搜索文本的開始位置),endpos
方法:group(0),start(), end(), span()
默認使用貪婪匹配,即輸出匹配最長的子串