【數據分析與數據挖掘】二、數據獲取方法彙總

目錄

1.數據獲取手段

(1)數據倉庫

(2)監測與抓取

(3)填寫、埋點、日誌

(4)計算

2.好用的數據學習網站

1.數據獲取手段

數據獲取手段有:數據倉庫,監測與抓取,填寫、日誌、埋點,計算等。

(1)數據倉庫

如果一個網站是賣書的,建立的數據庫存儲書的信息,用戶的信息等,當網站擴展到一定規模時,遇到一個很重要的方向問題,該賣哪些書,該着重面向什麼人羣推薦什麼書,這時僅僅靠數據庫是不夠的,於是需要把每一次用戶進行數據交互時,數據庫的變動的信息都記錄下來,例如用戶在幾時幾分買了什麼書,瀏覽了什麼網頁,如實記錄並長期保留。這就需要數據倉庫了

  • 將所有業務數據經彙總處理,構成數據倉庫(DW)

    • 全部事件的記錄;

    • 部分維度與數據的整理(數據集市-DM);

  • 數據庫與數據倉庫

    • 數據庫面向業務存儲,倉庫面向主題存儲(主題:較高層次上對分析對象數據的一個完整並且一直的描述);

      面向業務需要保證高併發,快速讀寫,數據結構精簡等,主要爲用戶提供優質的用戶體驗;

      數據倉庫面向主題存儲;

    • 數據庫針對應用(OLTP-online transaction processing),數據倉庫針對分析(OLAP-online analysis processing);

    • 數據庫組織規範,倉庫可能冗餘,相對變化大,數據量大;

(2)監測與抓取

監測是通過檢測設備和算法直接獲取數據,如傳感器網絡;

抓取是爬取網站上的內容;

(3)填寫、埋點、日誌

  • 填寫指的是用戶填寫的信息,如用戶註冊時的信息;

  • 埋點:在APP或者網頁應用中,針對特定的流程,收集一定的信息用來根據APP或者網頁用戶使用的情況,以便用來進一步優化產品,運營支持;

  • 操作日誌,日誌是以文件形式存在的;

(4)計算

有些數據不能直接計算,需要通過已有數據計算生成衍生數據,例如統計報表某些項目。

2.好用的數據學習網站

(1)數據競賽網站(Kaggle&天池);

(2)數據集網站(ImageNet/open Images(google出的));

(3)各領域統計數據(統計局、政府機構、公司財報等);

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章