原创 機械學習 --客戶價值模型 RFM

RFM模型引入 比如電商網站要做一次營銷活動,需要針對不同價值的客戶羣體進行分羣,對於高價值的用戶推薦手錶,珠寶等高端商品,對於低價值用戶推薦打折促銷的廉價商品,當然還有以下這些問題都是需要考慮的: 1.誰是我的最佳客戶? 2.誰即將要成

原创 機器學習 --基礎入門介紹 他來啦!!!

  行業熱詞解釋   機器學習基本術語 假如我們有一組天氣數據,是來自全世界不同國家和地區的每日天氣,內容包括最高溫度、最低溫度、平均溼度、風速之類的相關數據,例如數據的一部分是這樣的: 城市 最高溫度 最低溫度 相

原创 Oozie --oozie的使用

oozie的使用 KEY 含義 nameNode HDFS地址 jobTracker jobTracker(ResourceManager)地址 queueName Oozie隊列(默認填寫default)

原创 用戶畫像 --運用sqoop導入數據 HBase ImportTSV HBase Bulkload MapReduce導入

項目數據導入前提: 整個用戶畫像(UserProfile)項目中,數據、業務及技術流程圖如下所示: 其中數據源存儲在業務系統數據庫:MySQL 數據庫中,採用SQOOP全量/增量將數據抽取到HDFS(Hive表中),通過轉換爲HFile

原创 用戶畫像 --前提介紹

用戶畫像 什麼是用戶畫像? 百度百科定義 用戶畫像又稱用戶角色,作爲一種勾畫目標用戶、聯繫用戶訴求與設計方向的有效工具,用戶畫像在各領域得到了廣泛的應用。我們在實際操作的過程中往往會以最爲淺顯和貼近生活的話語將用戶的屬性、行爲與期待

原创 zookeeper啓動報錯:already running as process

通過腳本啓動zookeeper集羣,發現主節點zookeeper進程並未起來,其餘節點zookeeper進程都起來了 查看zookeeper·的啓動腳本可以發現Zookeeper的進程名叫QuorumPeerMain   於是手動啓

原创 Oozie --入門安裝介紹

Oozie的介紹 Oozie是運行在hadoop平臺上的一種工作流調度引擎,它可以用來調度與管理hadoop任務,如,MapReduce、Pig等。 oozie的組件介紹 workFlow:工作流,定義工作流任務的執行,主要由一個個的a

原创 Oozie --任務的查看,殺死 Oozie和Azkaban來做對比

查看所有普通任務 oozie jobs -oozie http://bd001:11000/oozie   查看定時任務 oozie jobs -oozie http://bd001:11000/oozie   -jobtype co

原创 kylin --Kylin Cube優化

Cuboid剪枝優化 爲什麼要進行Cuboid剪枝優化 將以減少Cuboid數量爲目的的Cuboid優化統稱爲Cuboid剪枝。在沒有采取任何優化措施的情況下,Kylin會對每一種維度的組合進行預計算,每種維度的組合的預計算結果被稱爲Cu

原创 kylin -- 使用JDBC連接操作Kylin

(數據見資源包kylin) 要將數據以可視化方式展示出來,需要使用Kylin的JDBC方式連接執行SQL,獲取Kylin的執行結果 使用Kylin的JDBC與JDBC操作MySQL一致 jdbc url jdbc:kylin://node

原创 點擊流分析

點擊流概念 點擊流(Click Stream)是指用戶在網站上持續訪問的軌跡。注重用戶瀏覽網站的整個流程。用戶對網站的每次訪問包含了一系列的點擊動作行爲,這些點擊行爲數據就構成了點擊流數據(Click Stream Data),它代表了用

原创 Kylin -- 增量構建 自動合併分區 自動刪除Segment

增量構建應用場景 Kylin在每次Cube的構建都會從Hive中批量讀取數據,而對於大多數業務場景來說,Hive中的數據處於不斷增長的狀態。爲了支持Cube中的數據能夠不斷地得到更新,且無需重複地爲已經處理過的歷史數據構建Cube,因此對

原创 kylin -- 入門實戰演練!!!

按照日期統計訂單總額/總數量(Kylin方式) (測試資源請見kylin資源包!) 要使用Kylin進行OLAP分析,需要按照以下方式來進行。 1、創建項目(Project) 2、創建數據源(DataSource) 指定有哪些數據需要進行

原创 kylin -- 快速入門概述

1.快速入門概述 1.1 Kylin 定義 Apache Kylin 是一個開源的分佈式分析引擎,提供 Hadoop/Spark 之上的 SQL 查詢接口 及多維分析(OLAP)能力以支持超大規數據,最初由 eBay Inc 開發並貢獻

原创 Kylin --入門安裝介紹

Kylin 大數據OLAP引擎 Kylin簡介 Kylin的誕生背景 Kylin-中國團隊研發的,是第一個真正由中國人自己主導、從零開始、自主研發、併成爲Apache頂級開源項目 Hive的性能比較慢,支持SQL靈活查詢,特別慢 HBas