爬蟲數據解析

Python中常見的解析技術:正則、xpath、BeautifullSoup、json模塊、jsonpath
正則:從任意的字符串中查找需要數據
Ⅹpath, BeautifullSoup都是用於處理有層次結構的數據,比如:html,xmlisQn模塊與 nonpath:專門用於處理json數據
性能
正則:最快,使用難度高,無需安裝,內置re模塊
Xpath:是通過c語言實現,速度比較快,使用比較簡單,安裝比較簡單
BeautifullSoup:通過 python實現,速度比較慢,使用簡單,安裝比較簡單
json模塊:速度一般,使用非常簡單,通過內置的json模塊
jsonpath:速度一般,使用簡單,安裝比較簡單

正則表達式(爬蟲中常用的兩種)
方法 功能 參數說明 返回值類型
在這裏插入圖片描述

import re

# 從“你好,hello,世界”從字符串中提取中文
text = '你好,hello,世界'

# 通過正則表達式,生成一個pattern對象(只用於匹配中文)
pattern = re.compile(r'[\u4e00-\u9fa5]+')
# 檢索字符串,將匹配的中文存入列表
result = pattern.findall(text)
print(result)

xpath語法
1.選取節點
在這裏插入圖片描述
2、謂語(補充說明節點)
在這裏插入圖片描述
3、選取未知節點
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章