數據倉庫一書的感悟與批判-WEB

web

看到web這一章才明白,前面數倉對接的操作性應用都是指企業內部應用,如此看來這本書基本上還是站在前互聯網的視角來看待問題.

點擊流數據

正如前面提到的,站在傳統的企業IT角度來看,點擊流數據的粒度太低,不作用作分析,所以也沒必要裝入數據倉庫.文中提到需要一個叫GM的軟件來拋棄90%的數據.

ODS

在這裏,ODS終於上場,作爲DB和DW之間的數據存儲系統,它既作爲DW存儲很多數據,又作爲DB提供實時數據訪問.特殊的,ODS不是用來冗餘DB的數據,而是用來容易DW數據

數據分析

數據舉了一個購物網站的例子,通過csmall的操作記錄來產生用戶畫像:
在這裏插入圖片描述文中特別提到夏威夷是操作記錄中沒有出現的地點,我同時注意到貓仔被忽略了.

文本

面對非結構化數據,文本成爲連接非結構化數據和結構化數據的公共連接,這個思路仍然是站在傳統的角度來考慮,就是把新的,不熟悉的非結構化數據轉化爲熟悉的,舊的結構化數據.
相對於結構化數據裏擁有id,非結構的文本在判斷同一個事物中存在劣勢:

  • 拼寫錯誤
  • 多義詞
  • 碰巧同名
  • 暱稱&縮寫&帶職稱
  • 分詞(ing,ed)
    這裏任然可以看出Inmon的思路任然停留在上個年代,除了第一個是錯誤外, 後面不同詞的含義可能是不同的.
    另外在後面信息的呈現上,可以看出來書中仍然癡迷於傳統的那套形式,而沒有擁抱新的表達形式(例如和地圖相結合)
    文本的分類
  • 通信
    • 商業相關
    • 商業無關
      文中把這種商業無關的通信稱爲廢話
  • 文檔

多字段基於概率的匹配

以下是來自兩個系統信息,是同一個人:

  • Bob Smith
  • 科多拉多州的Bob Smith
  • 科羅拉多州威斯敏斯特的Bob Smith
    可以看出來,從上往下,越來越確定兩個人是同一個人。但是這個是一個概率上的上升,永遠無法像ID那樣保證一樣。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章