[Python數據分析] 1-數據獲取

1)數據倉庫
    I.特點:
    1.全部事實的記錄
    2.部分維度和數據的整理(數據集市)
    II.數據庫與數據倉庫的不同
    1.數據庫面向業務存儲,數據倉庫面向主題存儲(主題:較高層次上對分析對象數據的一個完整並且一致的描述)
    2.數據庫針對應用,數據倉庫針對分析
    3.數據庫組織規範,數據倉庫數據量大且雜亂

2)監測與抓取
直接解析網頁、接口、文件的信息
常用工具:Urllib,Urllib2,request,scrapy....

3)填寫、埋點、日誌
用戶填寫信息
APP或網頁埋點(特定流程的信息記錄點)
操作日誌

4)計算
通過已有數據計算生成衍生數據

5)學習網站
    競賽相關:Kaggle,天池
    數據集網站:imageNet
    各領域統計數據

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章