Python中常見的解析技術:正則、xpath、BeautifullSoup、json模塊、jsonpath
正則:從任意的字符串中查找需要數據
Ⅹpath, BeautifullSoup都是用於處理有層次結構的數據,比如:html,xmlisQn模塊與 nonpath:專門用於處理json數據
性能
正則:最快,使用難度高,無需安裝,內置re模塊
Xpath:是通過c語言實現,速度比較快,使用比較簡單,安裝比較簡單
BeautifullSoup:通過 python實現,速度比較慢,使用簡單,安裝比較簡單
json模塊:速度一般,使用非常簡單,通過內置的json模塊
jsonpath:速度一般,使用簡單,安裝比較簡單
正則表達式(爬蟲中常用的兩種)
方法 功能 參數說明 返回值類型
import re
# 從“你好,hello,世界”從字符串中提取中文
text = '你好,hello,世界'
# 通過正則表達式,生成一個pattern對象(只用於匹配中文)
pattern = re.compile(r'[\u4e00-\u9fa5]+')
# 檢索字符串,將匹配的中文存入列表
result = pattern.findall(text)
print(result)
xpath語法
1.選取節點
2、謂語(補充說明節點)
3、選取未知節點