原创 用戶畫像項目筆記3

用戶畫像標籤的設計 需求簡單明瞭: 用戶標籤的數量多少(以權重來表示) 爲方便管理 不同的標籤分類(以模塊來表示) 字段 gid, 模塊名,標籤名,標籤值,權重 主題分類 人口屬性模塊、註冊信息、終端設備、消費訂單屬性、消費商

原创 centos7 安裝tensorflowserving

參考: https://blog.csdn.net/u011734144/article/details/82107610 docker pull tensorflow/serving $cd /root/software/ $g

原创 tensorflow 加載模型AttributeError UserObject object has no attribute

[TF2.0]加載保存的模型失敗,出現“ AttributeError:’_UserObject’對象沒有屬性’_create_or_restore_slot_variable’ 參考: https://github.com/te

原创 修改/etc/security/limits.conf 時卻一直不能生效

ELK環境搭建時,發現需要修改ulimit 設置,否則就會報錯。 而修改/etc/security/limits.conf 時卻一直不能生效 總結下來發現要使limits.conf生效,需要設置 UsePAM yes UseLog

原创 用戶畫像項目筆記2

DSP業務背景 當今時代,廣告業務已經進入到RTB程序化實時競價時代,公司擴展了一塊DMP的業務 DSP(Demand-Side Platform):廣告需求方平臺!代各種廣告主,去ADX(advertising Exchange

原创 用戶畫像項目筆記1

項目立項 爲了更好更高效的管理、利用公司各條業務線產生的以及所需要的數據以更好地支撐公司主營業務以及其他各條業務線的運營 項目核心模塊 數據採集 數據預處理 數倉ETL系統 任務調度系統(azkaban|oozie) 元數據、數

原创 數據倉庫項目筆記9

用戶訂單畫像報表分析 – 訂單指標表 dm_user_order_tag drop table if exists ads_user_order_tag; create table ads_user_order_tag( user

原创 sqoop安裝後找不到hive.HiveConf類解決辦法

– 遇到錯誤,找不到hive.HiveConf… 直接將hive安裝目錄中的lib中的hive-common-2.3.5.jar 拷貝到sqoop的lib中 然後測試,如果通過,則恭喜你!!!!你人品爆棚! – 如果人品不行,按下

原创 數據倉庫項目筆記8

路徑分析-轉化率概念 業務背景:公司有很多很多的各種類型的業務,而每一項業務往往能分成若干個操作環節,用戶在業務的各個操作環節上進行操作,一步步走向業務目標(比如買單,比如註冊成功,比如充值完成,比如進入充值頁)那麼,一個業務的

原创 數據倉庫項目筆記7

用戶活躍度 用戶連續活躍情況 所需字段 : 日期 當日活躍總數 連續活躍天數 連續活躍人數 select '2019-06-09' dt, datediff('2019-06-09',first_login)+1 conti

原创 數據倉庫項目筆記3

知識點: spark DSL風格: 表示column方式: $“field” 'field col(“field”) dataframe(“field”) 每遇到select 方法生成一張新的表,後續方法 相當於子查詢 a

原创 數據倉庫項目筆記1

Created with Raphaël 2.2.0前端埋點(js)nginx分佈式收集存儲到日誌服務器供數據分析 日誌數據清洗: ODS(數據操作層)->DWD(數據明細層) 日誌數據格式: id, pid, address,

原创 數據倉庫項目筆記2

業務需求: 1 清洗過濾: 去除不必要的字段和無效數據 2 數據解析: 解析數據爲扁平格式 3 數據集成: 根據經緯度添加省市縣信息 4 數據存儲: 存儲爲parquet格式 所用技術: spark json解析 廣播變量 所學:

原创 數據倉庫項目筆記6

用戶活躍留存: 求出當日以前的所有日期在(當日-每個日期)天后留存 可以用當日的日活join所有的日期日活獲取用戶活躍留存 這樣join表數巨多, 另闢蹊徑 如果有一張表記錄了每個用戶的活躍狀態的日期區間 就能解決以前歷史表不能獲

原创 數據倉庫項目筆記4

知識點: sparksession.createDataset 需要對元素序列化(發送到task), import sparksession.implicits_ 只支持基本數據類型和case class 序列化 自定義序列化 E