原创 Spark FPGrowth關聯規則算法

關聯規則挖掘最經典的例子就是購物籃分析。也就是根據顧客購買行爲模式,分析出商品與商品之間的聯繫。比如買了炸雞,和可能接下來去買啤酒。這對於商品的佈局,庫存安排以及商業推銷都有很大幫助。 而我項目中也用到了關聯規則算法,第一個是挖掘店鋪和店

原创 大數據之Kylin入門——第二章Kylin入門

1.數據準備 hive建表語句和一些測試數據: 部門表: create external table if not exists default.dept( deptno int, dname string, loc int ) row

原创 大數據之Kylin入門——第一章Kylin簡介

1.Kylin是什麼 Apache Kylin是一個開源的分佈式分析引擎,提供Hadoop/Spark之上的SQL查詢接口以及多維分析(OLAP)能力以支持超大規模數據,最初由eBay開發並貢獻至開源社區,名字也很中國風,麒麟。Kylin

原创 hbase的rowkey該怎麼設計

網上查了很多資料,關於hbase rowkey到底應該怎麼設計。總結下來就是4點。 1.唯一原則。 必須在設計上保證其唯一性。由於在HBase中數據存儲是Key-Value形式,若HBase中同一表插入相同Rowkey, 則原先的數據會被

原创 spark讀取hive問題彙總

hive的計算引擎是tez,該如何配置? spark讀取hive的數據報錯,按照網上的說明,將hive的conf目錄下的hive-site.xml複製到spark的conf目錄下,並添加上hive的metastore。 <property

原创 實時同步工具canal入門

canal主要用途是基於 MySQL 數據庫增量日誌解析,提供增量數據訂閱和消費。在大數據中廣泛用於實時數據的採集。 1.canal原理 mysql並沒有實現增量數據的查閱消費功能,先來說說mysql主備複製原理。 mysql主節點對數

原创 Spark協同過濾推薦

項目最近需要給用戶推薦潛在的店鋪,當時也在考慮是用協同過濾推薦還是用ALS訓練模型,但是考慮到數據量是以一年爲週期每天更新跑的,模型就算訓練出來也沒多大用處。耗時,調參,沒有必要。所以還是決定使用協同過濾推薦。而我採用的是同現相似度矩陣來

原创 Structed Streaming寫入數據到mysql,kafka中

structed streaming是spark2.x之後更新的,一句話介紹就是比spark streaming更高級的api工具。 舉個例子,當我們做實時單詞統計的時候,每一個批次的數據都能統計出來。如果要統計前面幾個批次的所有數據該怎

原创 大數據之Kylin入門——第五章Kylin之cube構建優化

前面說過構建一個n維的cube有多少種情況了,2^n-1種。構建一個10維的是1023種情況,一個20維的是1048576。那如果有30維甚至100維的了?這對於集羣來說壓力非常大,所以我們應該想想到底有沒有必要構建這麼多種情況了。 舉個

原创 spark streaming實戰運用

簡單介紹一下業務場景。門戶網站,用戶有時會點擊一些廣告,但是有一些用戶可能惡意點擊廣告,所以需要過濾掉這些用戶並保存至黑名單中。然後想實時分析一下這些廣告的數據,比如今天一天各個省份各個城市廣告的排名,近一個小時的實時排名等。   技術點

原创 大數據項目之電商數倉離線計算

本次項目是基於企業大數據的電商經典案例項目(大數據日誌以及網站數據分析),業務分析、技術選型、架構設計、集羣規劃、安裝部署、整合繼承與開發和web可視化交互設計。 1.系統數據流程設計   我這裏主要分享下系統數據大致流通的過程。 電商

原创 對String在多線程中的一些簡單認識

  最近在看多線程,synchronized代碼塊時候說到用String對象來當作鎖,然後說最好不要用String對象來當作鎖,這是爲什麼了?可以先看一段程序。 public class StringLock { pub

原创 redis,mysql,elasticsearch,hbase,hive對比區別,該如何選擇

幾種數據庫對比如下:   redis mysql elasticsearch hbase hive 容量/容量擴展 低 中 大 海量 海量 查詢時效性 極高 中等 較高 較高 低 查詢靈活性 較差 非常好 較好 較差 非常好 寫入速度 極