爬蟲數據解析

Python中常見的解析技術：正則、xpath、BeautifullSoup、json模塊、jsonpath
正則：從任意的字符串中查找需要數據
Ⅹpath, BeautifullSoup都是用於處理有層次結構的數據,比如:html,xmlisQn模塊與 nonpath:專門用於處理json數據
性能
正則：最快,使用難度高,無需安裝,內置re模塊
Xpath：是通過c語言實現,速度比較快,使用比較簡單,安裝比較簡單
BeautifullSoup：通過 python實現,速度比較慢,使用簡單,安裝比較簡單
json模塊：速度一般,使用非常簡單,通過內置的json模塊
jsonpath：速度一般,使用簡單,安裝比較簡單

正則表達式（爬蟲中常用的兩種）
方法功能參數說明返回值類型

import re

# 從“你好，hello，世界”從字符串中提取中文
text = '你好，hello，世界'

# 通過正則表達式，生成一個pattern對象(只用於匹配中文)
pattern = re.compile(r'[\u4e00-\u9fa5]+')
# 檢索字符串，將匹配的中文存入列表
result = pattern.findall(text)
print(result)

xpath語法
1.選取節點

2、謂語（補充說明節點）

3、選取未知節點