原创 繼續排坑(一,數倉統一規則)

在做數據倉庫的時候,最關鍵、最首要的工作就是導數據! 導數據的時候,最關鍵、最首要的工作就是數據統一規則! 1、空數據 2、字符串中空數據 3、髒數據 4、字段名統一 5、字段類型統一 ... 這裏要講的是兩個坑: one:第一個坑比較常

原创 後來我使用了CM5.13.3spark2kafka3.1.1解決了很多疑難雜症——hue+hive數據庫權限

由於數據庫用於多個部門,每個人都可以對數據庫進行增刪改查,需要對數據庫的操作進行權限限制。 在hue界面創建登錄用戶hivetest 在hive-site.xml的Hive和HiveServer2高級配置中添加配置 <prop

原创 cdh6.3.2+kerberos+sentry+hue+hive 庫表權限管理

作爲個人筆記 主要關注兩個點 1、sentry中的sentry.service.admin.group必定與hue界面添加的用戶及用戶組名稱保持一致; 2、在hue上的安全性設置中,role角色中如果添加了server=sentry_se

原创 sqoop 冷知識

sqoop中,我們都知道可以指定關係型數據庫字段導入hive 有兩種方式: 第一種:用query查詢語句把結果存放在hdfs 第二種:用column指定字段到hdfs   表面看似沒差別,但這兩種有底層區別, 前者是直接結果字段爲指定字段

原创 後來我使用了CM5.13.3spark2kafka3.1.1解決了很多疑難雜症——搭建

主機系統 centos7系統安裝(5臺) 安裝前準備 JDK jdk-8u191-linux-x64.tar.gz scala-2.11.8.tgz ClouderaManager安裝包 cloudera-manager-centos

原创 後來我使用了CM5.13.3spark2kafka3.1.1解決了很多疑難雜症——hue增加spark交互式

需要準備 安裝包 livy-0.5.0-incubating-bin.tar.gz hue.ini配置 [desktop] app_blacklist= [spark] livy_server_host=master.dffl.co

原创 後來我使用了CM5.13.3spark2kafka3.1.1解決了很多疑難雜症——bug解決方案

關於spark2生成部署失敗 首先我們需要找到此處日誌目錄,並不是/opt/cloudera-manager/cm-5.13.3/log。針對使用tar.gz包進行離線安裝的目錄,日誌應該在:/opt/cloudera-mana

原创 後來我使用了CM5.13.3spark2kafka3.1.1解決了很多疑難雜症——linux系統安裝rz/sz

編譯安裝 root 賬號登陸後,依次執行以下命令: cd /tmp wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz tar zxvf lrzsz-0.12.20.t

原创 hdp VS cdh 神坑的隊列——調度器

前段時間,重建集羣,使用的是hdp一套環境。先前都是用的cdh版本,可謂被虐的可以! 先來說說調度器! 調度器有那麼兩個大類,一種是排隊型的(FIFO Scheduler(這款無需配置)、Capacity Scheduler),一種是插隊

原创 面試專供

http://www.cnblogs.com/cxzdy/category/776252.html

原创 有關大數據框架的一些雜亂bug

1、數據分片 用scala分片每行數據時,遇到最後幾個字段爲空值,需要用到split函數中的參數arg1 split(arg0:String, arg1:Int) 1、當arg1 > 0時,它限制arg0最多成功匹配arg1.leng

原创 HBase 在HDFS 上的目錄樹

     總所周知,HBase 是天生就是架設在 HDFS 上,在這個分佈式文件系統中,HBase 是怎麼去構建自己的目錄樹的呢? 這裏只介紹系統級別的目錄樹。 一、0.94-cdh4.2.1版本 系統級別的一級目錄如下,用戶自定義的均在