台部落challengedream

在做數據倉庫的時候，最關鍵、最首要的工作就是導數據！導數據的時候，最關鍵、最首要的工作就是數據統一規則！ 1、空數據 2、字符串中空數據 3、髒數據 4、字段名統一 5、字段類型統一 ... 這裏要講的是兩個坑： one：第一個坑比較常

2020-06-21 14:47:31

由於數據庫用於多個部門，每個人都可以對數據庫進行增刪改查，需要對數據庫的操作進行權限限制。在hue界面創建登錄用戶hivetest 在hive-site.xml的Hive和HiveServer2高級配置中添加配置 <prop

2020-06-10 04:29:15

作爲個人筆記主要關注兩個點 1、sentry中的sentry.service.admin.group必定與hue界面添加的用戶及用戶組名稱保持一致； 2、在hue上的安全性設置中，role角色中如果添加了server=sentry_se

2020-04-22 23:38:04

sqoop中，我們都知道可以指定關係型數據庫字段導入hive 有兩種方式：第一種：用query查詢語句把結果存放在hdfs 第二種：用column指定字段到hdfs 表面看似沒差別，但這兩種有底層區別，前者是直接結果字段爲指定字段

2019-07-02 18:11:18

主機系統 centos7系統安裝（5臺）安裝前準備 JDK jdk-8u191-linux-x64.tar.gz scala-2.11.8.tgz ClouderaManager安裝包 cloudera-manager-centos

2019-04-12 18:10:24

需要準備安裝包 livy-0.5.0-incubating-bin.tar.gz hue.ini配置 [desktop] app_blacklist= [spark] livy_server_host=master.dffl.co

2019-04-12 18:10:13

關於spark2生成部署失敗首先我們需要找到此處日誌目錄，並不是/opt/cloudera-manager/cm-5.13.3/log。針對使用tar.gz包進行離線安裝的目錄，日誌應該在：/opt/cloudera-mana

2019-04-12 18:10:13

編譯安裝 root 賬號登陸後，依次執行以下命令： cd /tmp wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz tar zxvf lrzsz-0.12.20.t

2019-04-12 18:10:13

前段時間，重建集羣，使用的是hdp一套環境。先前都是用的cdh版本，可謂被虐的可以！先來說說調度器！調度器有那麼兩個大類，一種是排隊型的（FIFO Scheduler（這款無需配置）、Capacity Scheduler），一種是插隊

2018-12-08 01:06:14

http://www.cnblogs.com/cxzdy/category/776252.html

2018-09-01 12:09:49

1、數據分片用scala分片每行數據時，遇到最後幾個字段爲空值，需要用到split函數中的參數arg1 split(arg0:String, arg1:Int) 1、當arg1 > 0時，它限制arg0最多成功匹配arg1.leng

2018-09-01 12:09:46

總所周知，HBase 是天生就是架設在 HDFS 上，在這個分佈式文件系統中，HBase 是怎麼去構建自己的目錄樹的呢？這裏只介紹系統級別的目錄樹。一、0.94-cdh4.2.1版本系統級別的一級目錄如下，用戶自定義的均在

2018-09-01 12:09:45