數據倉庫一書的感悟與批判-WEB

原創

2020-05-11 19:31

web

看到web這一章才明白,前面數倉對接的操作性應用都是指企業內部應用,如此看來這本書基本上還是站在前互聯網的視角來看待問題.

點擊流數據

正如前面提到的,站在傳統的企業IT角度來看,點擊流數據的粒度太低,不作用作分析,所以也沒必要裝入數據倉庫.文中提到需要一個叫GM的軟件來拋棄90%的數據.

在這裏,ODS終於上場,作爲DB和DW之間的數據存儲系統,它既作爲DW存儲很多數據,又作爲DB提供實時數據訪問.特殊的,ODS不是用來冗餘DB的數據,而是用來容易DW數據

數據舉了一個購物網站的例子,通過csmall的操作記錄來產生用戶畫像:
文中特別提到夏威夷是操作記錄中沒有出現的地點,我同時注意到貓仔被忽略了.

面對非結構化數據,文本成爲連接非結構化數據和結構化數據的公共連接,這個思路仍然是站在傳統的角度來考慮,就是把新的,不熟悉的非結構化數據轉化爲熟悉的,舊的結構化數據.
相對於結構化數據裏擁有id,非結構的文本在判斷同一個事物中存在劣勢:

拼寫錯誤
多義詞
碰巧同名
暱稱&縮寫&帶職稱
分詞(ing,ed)
這裏任然可以看出Inmon的思路任然停留在上個年代,除了第一個是錯誤外, 後面不同詞的含義可能是不同的.
另外在後面信息的呈現上，可以看出來書中仍然癡迷於傳統的那套形式，而沒有擁抱新的表達形式（例如和地圖相結合）
文本的分類
通信
- 商業相關
- 商業無關
  文中把這種商業無關的通信稱爲廢話
文檔

以下是來自兩個系統信息,是同一個人:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.