台部落慕容馨磊

關聯規則挖掘最經典的例子就是購物籃分析。也就是根據顧客購買行爲模式，分析出商品與商品之間的聯繫。比如買了炸雞，和可能接下來去買啤酒。這對於商品的佈局，庫存安排以及商業推銷都有很大幫助。而我項目中也用到了關聯規則算法，第一個是挖掘店鋪和店

2020-06-29 17:54:30

1.數據準備 hive建表語句和一些測試數據：部門表： create external table if not exists default.dept( deptno int, dname string, loc int ) row

2020-06-29 17:09:13

1.Kylin是什麼 Apache Kylin是一個開源的分佈式分析引擎，提供Hadoop/Spark之上的SQL查詢接口以及多維分析（OLAP）能力以支持超大規模數據，最初由eBay開發並貢獻至開源社區，名字也很中國風，麒麟。Kylin

2020-06-29 17:09:13

網上查了很多資料，關於hbase rowkey到底應該怎麼設計。總結下來就是4點。 1.唯一原則。必須在設計上保證其唯一性。由於在HBase中數據存儲是Key-Value形式，若HBase中同一表插入相同Rowkey，則原先的數據會被

2020-06-29 17:09:13

hive的計算引擎是tez，該如何配置？ spark讀取hive的數據報錯，按照網上的說明，將hive的conf目錄下的hive-site.xml複製到spark的conf目錄下，並添加上hive的metastore。 <property

2020-06-29 17:09:13

canal主要用途是基於 MySQL 數據庫增量日誌解析，提供增量數據訂閱和消費。在大數據中廣泛用於實時數據的採集。 1.canal原理 mysql並沒有實現增量數據的查閱消費功能，先來說說mysql主備複製原理。 mysql主節點對數

2020-06-29 17:09:13

項目最近需要給用戶推薦潛在的店鋪，當時也在考慮是用協同過濾推薦還是用ALS訓練模型，但是考慮到數據量是以一年爲週期每天更新跑的，模型就算訓練出來也沒多大用處。耗時，調參，沒有必要。所以還是決定使用協同過濾推薦。而我採用的是同現相似度矩陣來

2020-06-29 17:09:13

structed streaming是spark2.x之後更新的，一句話介紹就是比spark streaming更高級的api工具。舉個例子，當我們做實時單詞統計的時候，每一個批次的數據都能統計出來。如果要統計前面幾個批次的所有數據該怎

2020-06-29 17:09:13

前面說過構建一個n維的cube有多少種情況了，2^n-1種。構建一個10維的是1023種情況，一個20維的是1048576。那如果有30維甚至100維的了？這對於集羣來說壓力非常大，所以我們應該想想到底有沒有必要構建這麼多種情況了。舉個

2020-06-29 17:09:13

簡單介紹一下業務場景。門戶網站，用戶有時會點擊一些廣告，但是有一些用戶可能惡意點擊廣告，所以需要過濾掉這些用戶並保存至黑名單中。然後想實時分析一下這些廣告的數據，比如今天一天各個省份各個城市廣告的排名，近一個小時的實時排名等。技術點

2020-06-29 17:09:13

本次項目是基於企業大數據的電商經典案例項目（大數據日誌以及網站數據分析），業務分析、技術選型、架構設計、集羣規劃、安裝部署、整合繼承與開發和web可視化交互設計。 1.系統數據流程設計我這裏主要分享下系統數據大致流通的過程。電商

2020-06-29 17:09:13

最近在看多線程，synchronized代碼塊時候說到用String對象來當作鎖，然後說最好不要用String對象來當作鎖，這是爲什麼了？可以先看一段程序。 public class StringLock { pub

2020-06-06 17:44:10

幾種數據庫對比如下： redis mysql elasticsearch hbase hive 容量/容量擴展低中大海量海量查詢時效性極高中等較高較高低查詢靈活性較差非常好較好較差非常好寫入速度極

2020-02-22 03:14:39