數據倉庫項目筆記1

Created with Raphaël 2.2.0前端埋點(js)nginx分佈式收集存儲到日誌服務器供數據分析

日誌數據清洗: ODS(數據操作層)->DWD(數據明細層)
日誌數據格式:
id, pid, address, add_type, longitude, latitude
業務需求: 提取地理位置信息生成字典表

所用技術: geohash編碼: 根據經緯度生成geohash
地理位置編碼 :二分切分經緯度 1 1表示四個區域 無限切分 組成111111111111111111 越多表示位置精度越高 然後用base32 一個字符表示5個1

所學知識: dataframe 和rdd 區別:
dataframe = rdd + schame
schame 是描述信息: 包括字段和類型(結構), dataframe 中有getschame方法
dataframe是弱類型 row 包含各個類型相當於java中 map 包含字段名稱 無名稱的數據輸入 默認value _col 有名稱的數據輸入帶有名稱

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章