數據抓取的一般流程

1.構造http請求.

1.1 網站如果不需要cookie驗證則可以直接拼寫常規的http 請求頭,訪問請求獲取數據即可(應用寶每日應用監控數據獲取).

1.2 網站如果需要cookie驗證,但登陸無驗證碼,無CSRF安全驗證,則直接模擬登陸獲取cookie,構造請求將cookie帶入即可獲取數據.

1.3 網站需要cookie驗證,無驗證碼,有csrf驗證的(酷傳數據獲取),可以通過查找頁面的csrf值,然後模擬登陸,獲取cookie,構造請求將cookie 帶入即可獲取數據,也可以通過capserJs找到頁面dom進行登陸(今日頭條後臺激活數獲取).

1.4 網站需要cookie,有驗證碼,驗證碼能識別的(QQ瀏覽器激活數獲取),可以識別驗證碼,模擬登陸,獲取cookie,然後請求數據.

1.5 網站需要cookie,有驗證碼,驗證碼不能識別,人工登陸,然後獲取cookie,然後請求數據即可.

2.解析數據.

通常有3種類型數據

1)json格式數據,json_decode()解析數據即可

2)Excel/CSV格式數據

3)HTML格式數據

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章