原创 在 centos7.2安裝docker 並設置阿里雲源

現在docker 在原來的基礎上分爲兩個分支版本: Docker CE 和 Docker EE。Docker CE 即社區免費版,Docker EE 即企業版,需付費使用。個人使用Docker CE 好了 刪除系統就的dock

原创 通過http端口獲取hadoop集羣的active node

最近部門合併,兩個部門的集羣需要同步到一起,自然用的是【distcp】,因爲兩個集羣的版本不一致,用hdfs可能會有問題,所以通過http端口來傳輸。因爲兩個集羣都配置了HA,無法確定什麼時候哪個name node處於activ

原创 CDH5.14 spark2.4.0配置python3 以及讀取hive表

在cdh5.14上裝好spark5.14後,如果使用pyspark的話,默認是使用系統的python,一般是python2.7 配置使用python3 1、在各個節點上安裝好python3,路徑要一致 2、在cdh的配置頁面 2

原创 centos6 python3.6 安裝配置jupyer

1、安裝 1.1、安裝python3.6 參考:https://blog.csdn.net/kyle0349/article/details/98474013 編譯安裝前一定要yum 安裝一些linux相關的依賴。 1.2、安

原创 VMware安裝centos7.2後配置網絡並設置固定ip

開始接觸centos7,目前公司用的還是centos6.8,不過最近要接觸docker,docker需要centos的內核是3.10以上,而且看到centos7也開始普及,就也試着學習接觸centos7吧。感覺區別還是挺明顯的。

原创 centos7.2 將mysql添加到服務中

手動安裝的mysql是不會自動添加到系統服務中的。如果需要配置開機啓動,最好是將mysql配置成系統服務,也便於管理。 確定mysql運行時的pid文件位置 1、先去mysql安裝目錄啓動mysql [root@host01

原创 centos6編譯安裝json工具 jq1.5

1、下載源碼包 [root@cdh01 jq]# wget https://github.com/stedolan/jq/releases/download/jq-1.5/jq-1.5.tar.gz 2、解壓 [root@cdh

原创 nifi給kafka打數據遇到的坑 - kafka2.1 的listeners配置

如下圖,在測試使用nifi往kafka打數據的時候,發現通過ambari安裝的kafka收不到數據,而通過docker安裝的kafka則可以收到數據。 模擬公司場景,消費海外的kafka,往國內kafka打數據 nifi後臺

原创 cdh集羣的spark2和jupyter集成

之前部門有小夥伴使用pandas做數據分析,使用的是jupyter做驗證開發,後來要使用spark,所以嘗試在jupyter寫spark代碼,這樣做的案例貌似不多,可能是比較偏門的。 1. 前提 1.1、spark2已經安裝好,在

原创 CDH5.14安裝spark2

cdh5.14 默認自帶的spark版本是1.6的,如果需要使用spark2,那麼需要另外安裝。官網上給出了CDH版本和spark2版本對應的說明以及離線安裝包的地址,在安裝時需要安裝自己集羣版本下載相應的spark2: http

原创 hive 1.1.0版內置函數大全

在hive中使用 show functions 查看所有hive支持的函數 describe function xxx 查看具體xxx函數的定義 以下表格是hive1.1.0支持的所有函數及定義, 其實主要用到的函數並不多,後續

原创 centos6 編譯安裝python3, 不影響python2

依賴安裝 yum -y groupinstall "Development tools" yum -y install python-devel openssl-devel bzip2-devel zlib-devel expat

原创 hive 1.1.0版本 獲取週數, 解決跨年的bug

背景 項目中有一個報表是留存率,包括日留存,周留存,月留存。其中在計算周留存率時,可能會直接想到【weekofyear】這個函數,然後簡單拼接年就可以得到週數,大部分時候是對的,但在跨年的時候可能會出現bug。 hive>

原创 開篇

好!開始我的博客了! 分享的同時,也是方便自己的理解和記憶! 踏出第一步,然後積累每一步吧! 每次遇到問題在網上找決解方法的時候,很多都能在CSDN大牛博客裏找到答案,很感謝他們。 曾經看到一個大牛博客的簽名是:分享是最好

原创 SSH免密碼登錄配置

Hadoop集羣中節點之間需要不斷通信,節點之間的免密碼登錄是少不了的. 原理: 在本機生成公鑰(id_rsa.pub)和私鑰(id_rsa),然後將公鑰存放到需要登錄的服務器,以後每次登錄該服務器時,會自動匹配公鑰和私鑰,匹配上