原创 1 RDD的數據結構模型

1 RDD的數據結構模型 前言:自Google發表三大論文GFS、MapReduce、BigTable以來,衍生出的開源框架越來越多,其中Hadoop更是以高可用、高擴展、高容錯等特性形成了開源工業界事實標準。Hadoop是一個可

原创 pyspark RDD 一行轉多行

dataframe也有按某列中按分隔符轉成多行的函數,不過dataframe比rdd所需資源更多,所以此處先些rdd的按某列拆分轉爲多行 dataframe的詳見https://spark.apache.org/docs/2.3.

原创 kylin-增量構建Cube

1、全量和增量的區別 對於全量構建來說,每當需要更新Cube數據的時候,它不會區分歷史數據和新加入的數據,也就是說,在構建的時候會導入並處理所有的原始數據。 我們將Cube劃分爲多個Segment,每個Segment用起始時間和結

原创 kylin異常排查-Step Name: Build Cube In-Mem

Kylin Build執行到17步時報錯:17 Step Name: Build Cube In-Mem ,錯誤截圖如下: 點左下角的MRJob圖標,打開查看錯誤信息: 從MRJob中的描述中可見詳細的錯誤信息: The r

原创 Hive導入/導出 : 創建分區表及分區表導入csv文本文件數據

1、csv導入分區表 基本思路:分別創建兩個表,一張是分區表,另一張是非分區表,表結構相同;再通過insert語句將非分區表的數據插入到分區表1。 要注意是,分區表的插入分兩種:靜態插入和動態插入。在一般情況下,Hive不建議直接

原创 kylin 集羣部署

1. 集羣節點規劃與說明 rzx1 all rzx2 query rzx3 query 說明: Kylin節點角色有三種: all: 包含query和job query: 查詢節點 job: 工作節點 3. Kylin

原创 kylin依賴 -- CDH5.15安裝Spark2.3服務

前提 在部署kylin時,提示需要spark2依賴, 1、到CDH官網下載對應的spark的parcel包 http://archive.cloudera.com/spark2/csd/ 注意下載對應的版本,CentOS7,下

原创 kylin集羣部署以及踩坑

一、安裝參考: https://www.cnblogs.com/binarylei/p/10549155.html https://www.cnblogs.com/jiashengmei/p/11778665.html 二、踩坑

原创 Mac:mysql的安裝以及canal測試

MySQL 一、MySQL安裝 建議國內鏡像下載,過程略過。 二、環境變量 第一步 :在終端切換到根目錄,編輯./.bash_profile文件 vim ./.bash_profile 第二步 :進入vim 編輯環境。 按下i

原创 zookeeper和kafka安裝

1、zookeeper: https://www.cnblogs.com/expiator/p/9853378.html 2、kafka: https://www.cnblogs.com/expiator/p/9990171.ht

原创 Spark Rdd coalesce方法和repartition方法

在Spark的Rdd中,Rdd是分區的。 有時候需要重新設置Rdd的分區數量,比如Rdd的分區中,Rdd分區比較多,但是每個Rdd的數據量比較小,需要設置一個比較合理的分區。或者需要把Rdd的分區數量調大。還有就是通過設置一個Rd

原创 美團推薦算法實踐

原文:https://cloud.tencent.com/developer/article/1342796 前言 推薦系統並不是新鮮的事物,在很久之前就存在,但是推薦系統真正進入人們的視野,並且作爲一個重要的模塊存在於各個互聯網

原创 指標權重確定方法之熵權法

http://blog.sina.com.cn/s/blog_710e9b550101aqnv.html 一、熵權法介紹 熵最先由申農引入信息論,目前已經在工程技術、社會經濟等領域得到了非常廣泛的應用。 熵權法的基本思路

原创 用戶畫像—打用戶行爲標籤

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487355&idx=1&sn=b7d5d94a017a0c2908d8cee6a58d917a&chksm=e990

原创 用戶畫像之標籤權重算法

https://mp.weixin.qq.com/s?__biz=MzI0OTQyNzEzMQ==&mid=2247487211&idx=1&sn=848069327f8c778e42427158f20f9b36&chksm=e990