台部落kyle0349

現在docker 在原來的基礎上分爲兩個分支版本: Docker CE 和 Docker EE。Docker CE 即社區免費版，Docker EE 即企業版，需付費使用。個人使用Docker CE 好了刪除系統就的dock

2020-07-02 14:43:43

最近部門合併，兩個部門的集羣需要同步到一起，自然用的是【distcp】，因爲兩個集羣的版本不一致，用hdfs可能會有問題，所以通過http端口來傳輸。因爲兩個集羣都配置了HA，無法確定什麼時候哪個name node處於activ

2020-07-02 14:43:43

在cdh5.14上裝好spark5.14後，如果使用pyspark的話，默認是使用系統的python，一般是python2.7 配置使用python3 1、在各個節點上安裝好python3，路徑要一致 2、在cdh的配置頁面 2

2020-07-02 14:43:43

1、安裝 1.1、安裝python3.6 參考：https://blog.csdn.net/kyle0349/article/details/98474013 編譯安裝前一定要yum 安裝一些linux相關的依賴。 1.2、安

2020-07-02 14:43:43

開始接觸centos7，目前公司用的還是centos6.8，不過最近要接觸docker，docker需要centos的內核是3.10以上，而且看到centos7也開始普及，就也試着學習接觸centos7吧。感覺區別還是挺明顯的。

2020-07-02 14:43:43

手動安裝的mysql是不會自動添加到系統服務中的。如果需要配置開機啓動，最好是將mysql配置成系統服務，也便於管理。確定mysql運行時的pid文件位置 1、先去mysql安裝目錄啓動mysql [root@host01

2020-07-02 14:43:42

1、下載源碼包 [root@cdh01 jq]# wget https://github.com/stedolan/jq/releases/download/jq-1.5/jq-1.5.tar.gz 2、解壓 [root@cdh

2020-07-02 14:43:42

如下圖，在測試使用nifi往kafka打數據的時候，發現通過ambari安裝的kafka收不到數據，而通過docker安裝的kafka則可以收到數據。模擬公司場景，消費海外的kafka，往國內kafka打數據 nifi後臺

2020-04-21 17:41:29

之前部門有小夥伴使用pandas做數據分析，使用的是jupyter做驗證開發，後來要使用spark，所以嘗試在jupyter寫spark代碼，這樣做的案例貌似不多，可能是比較偏門的。 1. 前提 1.1、spark2已經安裝好，在

2019-08-23 06:24:23

cdh5.14 默認自帶的spark版本是1.6的，如果需要使用spark2，那麼需要另外安裝。官網上給出了CDH版本和spark2版本對應的說明以及離線安裝包的地址，在安裝時需要安裝自己集羣版本下載相應的spark2： http

2019-08-23 06:24:23

在hive中使用 show functions 查看所有hive支持的函數 describe function xxx 查看具體xxx函數的定義以下表格是hive1.1.0支持的所有函數及定義，其實主要用到的函數並不多，後續

2019-08-06 06:06:10

依賴安裝 yum -y groupinstall "Development tools" yum -y install python-devel openssl-devel bzip2-devel zlib-devel expat

2019-08-06 06:06:10

背景項目中有一個報表是留存率，包括日留存，周留存，月留存。其中在計算周留存率時，可能會直接想到【weekofyear】這個函數，然後簡單拼接年就可以得到週數，大部分時候是對的，但在跨年的時候可能會出現bug。 hive>

2019-08-06 06:06:10

好！開始我的博客了！分享的同時，也是方便自己的理解和記憶！踏出第一步，然後積累每一步吧！每次遇到問題在網上找決解方法的時候，很多都能在CSDN大牛博客裏找到答案，很感謝他們。曾經看到一個大牛博客的簽名是：分享是最好

2019-07-30 05:45:48

Hadoop集羣中節點之間需要不斷通信，節點之間的免密碼登錄是少不了的. 原理：在本機生成公鑰(id_rsa.pub)和私鑰(id_rsa),然後將公鑰存放到需要登錄的服務器，以後每次登錄該服務器時，會自動匹配公鑰和私鑰，匹配上

2018-09-13 09:58:39