數據倉庫復興-數據來源

  一、業務數據

    隨着大數據的概念火了10年,可能很多從事數據領域工作的同學並不瞭解數倉的概念了。

    我曾經很長時間也不認爲概念是個多麼重要的東西,黑貓、白貓,能抓住老鼠的就是好貓嘛。只是隨着工作經驗的不斷積累,發現,如果有清晰的基礎理論與概念,在實踐時會有清晰的思路並能更容易地找到合適的方法;也慢慢體會到了大學教育的作用。

    迴歸正題,大家都說,數倉是不產生數據的,只加工、處理、存儲數據。其實,準確地說,數倉是不產生業務數據纔對。

    什麼事業務數據並沒有準確的定義,我的理解是:一線業務部門因生產、交易、提供服務等產生的基礎數據。

    如工廠的生產件數,原料消耗等;電商的註冊人數,訂單數等;還有社交軟件這種,相對抽象一些的,用戶的聊天內容,雖然是隱私,但也是業務數據。以此類推吧。

二、日誌數據

    主要分爲基礎的日誌和用戶行爲日誌。

   2.1 基礎日誌

    比如服務器日誌,Tomcat日誌等,其實也是間接反映了一些行爲的發生情況。

    現在以無人車爲代表,物聯網快速發展,必然少不了一些硬件數據的記錄。當然,這並不能定義爲用戶行爲數據,比如門開關的次數,電梯運行等。

   2.2 用戶行爲數據

    以前是瀏覽網頁時,視線的注意力,以及頁面元素的點擊情況。

    現在主要是以app爲代表的移動端爲主,比如用戶的點擊行爲,頁面跳轉順序,打開、離開等。

三、外部數據

  1. 外部購買:比如行業數據,研究報告等,也包括一些合作交換等。
  2. 爬蟲數據:按需所取了,要在合法範圍內。
  3. 其他渠道。

四、主動採集

    這個主要還是在圖像識別和計算能力大幅提升之後,我認爲應該從日誌數據中分離出來,指的是有目的性的數據採集。

    比如,wifi探針這種技術,雖然不能準備標識用戶,但對門店流量之類的分析還是非常有幫助的。

    攝像頭採集的人臉數據,可用價值就又高了許多。 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章