web
看到web這一章才明白,前面數倉對接的操作性應用都是指企業內部應用,如此看來這本書基本上還是站在前互聯網的視角來看待問題.
點擊流數據
正如前面提到的,站在傳統的企業IT角度來看,點擊流數據的粒度太低,不作用作分析,所以也沒必要裝入數據倉庫.文中提到需要一個叫GM的軟件來拋棄90%的數據.
ODS
在這裏,ODS終於上場,作爲DB和DW之間的數據存儲系統,它既作爲DW存儲很多數據,又作爲DB提供實時數據訪問.特殊的,ODS不是用來冗餘DB的數據,而是用來容易DW數據
數據分析
數據舉了一個購物網站的例子,通過csmall的操作記錄來產生用戶畫像:
文中特別提到夏威夷是操作記錄中沒有出現的地點,我同時注意到貓仔被忽略了.
文本
面對非結構化數據,文本成爲連接非結構化數據和結構化數據的公共連接,這個思路仍然是站在傳統的角度來考慮,就是把新的,不熟悉的非結構化數據轉化爲熟悉的,舊的結構化數據.
相對於結構化數據裏擁有id,非結構的文本在判斷同一個事物中存在劣勢:
- 拼寫錯誤
- 多義詞
- 碰巧同名
- 暱稱&縮寫&帶職稱
- 分詞(ing,ed)
這裏任然可以看出Inmon的思路任然停留在上個年代,除了第一個是錯誤外, 後面不同詞的含義可能是不同的.
另外在後面信息的呈現上,可以看出來書中仍然癡迷於傳統的那套形式,而沒有擁抱新的表達形式(例如和地圖相結合)
文本的分類 - 通信
- 商業相關
- 商業無關
文中把這種商業無關的通信稱爲廢話
- 文檔
多字段基於概率的匹配
以下是來自兩個系統信息,是同一個人:
- Bob Smith
- 科多拉多州的Bob Smith
- 科羅拉多州威斯敏斯特的Bob Smith
可以看出來,從上往下,越來越確定兩個人是同一個人。但是這個是一個概率上的上升,永遠無法像ID那樣保證一樣。