數據分析實戰之如何自動化採集數據

從數據採集的角度看,數據源可以分爲以下三類

一、開放數據源:一般是針對行業的數據庫。可以兩個維度來考慮:

1)單位:政府、企業和高校

2)行業:比如交通、金融、能源等

二、爬蟲抓取:一般是針對特定的網站或APP。

1、使用python編寫爬蟲代碼,會經歷以下過程

1)使用requests爬取內容。使用requests庫抓取網頁信息

2)使用XML Path解析內容。

3)使用pandas保存數據

2、不用編程也可以抓取網頁信息的抓取工具

火車採集器、八爪魚、集搜客

三、日誌採集:統計用戶的操作。在前端進行埋點、在後端進行腳本收集、統計,來分析網站的訪問情況,以及使用瓶頸

日誌記錄了用戶訪問網址的全過程:哪些人在什麼時間,通過什麼渠道來過,執行了哪些操作;系統是否產生了錯誤;甚至包括用戶的IP、HTTP請求的時間,用戶代理等。

埋點是日誌採集的關鍵步驟。埋點就是在有需要的位置採集相應的信息,進行上報。每個埋點就像一臺攝像頭,採集用戶行爲數據,將數據進行多緯度的交叉分析,可真實還原出用戶使用場景和用戶使用需求。

如何進行埋點:在你需要統計數據的地方植入統計代碼,代碼可以自己寫,也可以使用第三方統計工具。比如友盟、Google Analysis、Talkingdata等。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章