原创 千億級數倉項目第二章(Kettle)

Kettle介紹 對於企業或行業應用來說,經常會遇到各種數據的處理,轉換,遷移,掌握一種etl工具的使用,必不可少,這裏要學習的ETL工具是——Kettle,現在已經更名爲PDI。 Kettle是一款國外開源的ETL工具,純ja

原创 拉鍊表的練習題

拉鍊表流程圖: 需求:在mysql數據庫中有一個人員信息表(userinfo) 數據字段如下: 在Mysql中的建表語句爲: – 創建數據庫 create database if not exists exam; – 創建人

原创 千億級數倉項目第一章

千億級數倉項目 總體介紹 數倉: 數據倉庫 數據集市 階段一 項目背景介紹 階段二 準備數據(Mysql->Hive) Kettle sqoop 階段三 數據倉庫理論+實戰 階段四 編寫SQL實現以下業務分析,並按照數據倉庫結構

原创 Spark的知識點總結

什麼是Spark 基於內存的,用於大規模數據處理(離線計算、實時計算、快速查詢(交互式查詢))的統一分析引擎。 Spark特點 快: Spark計算速度是MapReduce計算速度的10-100倍 易用:(算法多) MR支持1種

原创 用戶畫像第四章(企業級360°用戶畫像_標籤開發_規則匹配標籤)

標籤開發 我們根據標籤的計算方式的不同,我們將所有的標籤劃分成3種不同的類型: 匹配型:通過匹配對應的值來確定標籤結果 統計型:按照一定的範圍進行彙總分類得到標籤結果 挖掘型:需要通過多個維度利用一定的算法才能得到的標籤。 標籤開

原创 用戶畫像第一章(企業級360°全方位用戶畫像_項目安排:)

企業級360°全方位用戶畫像 項目安排: 企業級360°全方位用戶畫像 一、用戶畫像概念、設計構建用戶畫像及項目演示說明 -2天 用戶畫像概念發展 如何構建用戶畫像 標籤Tag 項目核心功能: 深入剖析(最關鍵) 項目工程

原创 用戶畫像第三章(企業級360°用戶畫像_Oozie的使用)

4、oozie的使用 4.1、使用oozie調度shell腳本 oozie安裝好了之後,需要測試oozie的功能是否完整好使,官方已經給我們帶了各種測試案例,我們可以通過官方提供的各種案例來對oozie進行調度 第一步:解壓官方

原创 用戶畫像第一章(企業級360°全方位用戶畫像_環境搭建)

環境搭建 數據:鏈接: https://pan.baidu.com/s/132b76mpsHs6sBaZgoTxT_A 提取碼: xpd4 複製這段內容後打開百度網盤手機App,操作更方便哦 2.4、項目工程演示 將項目工程【

原创 用戶畫像第一章(企業級360°全方位用戶畫像_項目集羣環境搭建)

項目環境搭建 搭建好的集羣:鏈接: 虛擬機說明: 用戶名:root 密碼:123456 主機名:bd001 Ip:192.168.10.20 Mysql鏈接: 用戶:root 密碼:123456 虛擬機配置10網段(根

原创 用戶畫像第一章(企業級360°全方位用戶畫像_項目工程搭建)

項目工程搭建 搭建好的項目 數據:鏈接: https://pan.baidu.com/s/132b76mpsHs6sBaZgoTxT_A 提取碼: xpd4 複製這段內容後打開百度網盤手機App,操作更方便哦 使用IDEA開發

原创 用戶畫像第三章(企業級360°用戶畫像_Oozie的安裝)

Oozie的安裝及使用 1、Oozie的介紹 是一個運行在HADOOP之上的一個工作流調度引擎,可以調度MR,Hive,shell等任務。 oozie的組件介紹: workFlow(xml文件) 工作流,定義工作流任務的執行流程

原创 用戶畫像第一章(企業級360°全方位用戶畫像_項目概述)

項目概述 **企業級360°全方位用戶畫像是基於電商平臺進行設計和開發,是面向註冊會員的偏好、行爲習慣和 人口屬性的畫像還原,同時也包括對商品信息的畫像還原。**提供用戶喜好和商品特徵幫助營銷平臺提升 營銷的精準度,也方便個性化推

原创 用戶畫像第二章(企業級360°用戶畫像_數據調研及ETL)

第二部分:業務數據調研及ETL 整個用戶畫像(UserProfile)項目中,數據、業務及技術流程圖如下所示: 其中數據源存儲在業務系統數據庫:MySQL 數據庫中,採用SQOOP全量/增量將數據抽取到HDFS(Hive表中)

原创 千億數倉第三章(數倉理論_項目環境初始化)

項目環境初始化 3.1 Hive分層說明 分庫存放 ods層 dw層 ads層 命名規則 ods層表與原始數據庫表名稱相同 dw層表 ofact_前綴表示事實表 odim_前綴表示維度表 創建分層數據庫: crea

原创 kylin的使用

準備測試數據 創建數據庫、表、加載數據 create table dw_sales(id string,date1 string,channelId string, productId string, regionId stri