從數據採集的角度看,數據源可以分爲以下三類
一、開放數據源:一般是針對行業的數據庫。可以兩個維度來考慮:
1)單位:政府、企業和高校
2)行業:比如交通、金融、能源等
二、爬蟲抓取:一般是針對特定的網站或APP。
1、使用python編寫爬蟲代碼,會經歷以下過程
1)使用requests爬取內容。使用requests庫抓取網頁信息
2)使用XML Path解析內容。
3)使用pandas保存數據
2、不用編程也可以抓取網頁信息的抓取工具
火車採集器、八爪魚、集搜客
三、日誌採集:統計用戶的操作。在前端進行埋點、在後端進行腳本收集、統計,來分析網站的訪問情況,以及使用瓶頸
日誌記錄了用戶訪問網址的全過程:哪些人在什麼時間,通過什麼渠道來過,執行了哪些操作;系統是否產生了錯誤;甚至包括用戶的IP、HTTP請求的時間,用戶代理等。
埋點是日誌採集的關鍵步驟。埋點就是在有需要的位置採集相應的信息,進行上報。每個埋點就像一臺攝像頭,採集用戶行爲數據,將數據進行多緯度的交叉分析,可真實還原出用戶使用場景和用戶使用需求。
如何進行埋點:在你需要統計數據的地方植入統計代碼,代碼可以自己寫,也可以使用第三方統計工具。比如友盟、Google Analysis、Talkingdata等。