原创 kafka2.1集羣部署

jdk部署 下載安裝包:wget wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie"

原创 大數據運維 fstab磁盤自動掛載腳本(有瑕疵)

腳本自寫,可根據業務自行調整 #!/bin/bash function hadoop(){     echo "${needmountdisk[0]}磁盤掛載檢查"     file=${needmountfile[i]}     fil

原创 進程守護工具supervisor的使用部署

supervisor使用: -c/--configuration -- configuration file path (default /etc/supervisord.conf)  指定使用的配置文件:supervisord -c /

原创 docker on yarn

docker on yarn

原创 fstab磁盤批量掛載腳本

#!/bin/bash #HAdoop函數 function hadoop(){     echo "${needmountdisk[0]}磁盤掛載檢查"     #獲取掛載文件夾前一個文件夾     file=${needmountfi

原创 spark on yarn多版本共存問題解決方案

使用supervisor啓動多個ExternalShuffleService spark-defaults.conf添加修改ExternalShuffleService端口      注:部署多版本spark時,全局變量不要指定SPA

原创 大數據集羣磁盤離線掛載

一、離線磁盤            1.刪除hdfs配置文件磁盤的信息                 vim /etc/hadoop/hdfs-site.xml                 進入編輯模式,刪除磁盤信息並保存退出   

原创 大數據部分組建相關命令

1、Hadoop集羣 (1)啓動方式切換到主節點的hadoop安裝目錄下的sbin目錄下     a)/start-dfs.sh     ./start-yarn.sh (建議使用)     b)./start-all.sh (2)關閉方

原创 kafka常見命令

啓動Kafka: /export/servers/zookeeper/bin/zkServer.sh start nohup /home/hadoop/develop_env/kafka/bin/kafka-server-start.sh

原创 kafka常見問題如果想消費已經被消費過的數據

1、 consumer是底層採用的是一個阻塞隊列,只要一有producer生產數據,那consumer就會將數據消費。當然這裏會產生一個很嚴重的問題,如果你重啓一消費者程序,那你連一條數據都抓不到,但是log文件中明明可以看到所有數據都好

原创 mapreduce調優

一、調優的目的     充分的利用機器的性能,更快的完成mr程序的計算任務。甚至是在有限的機器條件下,能夠支持運行足夠多的mr程序。二、調優的總體概述     從mr程序的內部運行機制,我們可以瞭解到一個mr程序由mapper和reduc

原创 oozie錯誤

1、 Cannot run program "en.sh" (in directory "/home/install/hadoop-2.5.0-cdh5.3.6/tmp/nm-local-dir/usercache/hadoop/appc

原创 kafka使用筆記

1、Segment的概念? 一個分區被分成相同大小數據條數不相等的segment, 每個segment由多個index文件和數據文件(.log)組成 2、數據的存儲機制? 首先是Broker接收到數據後,將數據放到操作系統(linux)的

原创 IDEA快捷鍵使用

Ctrl+Alt+t 選擇代碼塊 try catch Alt+回車 導入包,自動修正 Ctrl+N   查找類 Ctrl+Shift+N 查找文件 Ctrl+Alt+L  格式化代碼 Ctrl+Alt+O 優化導入的類和包 Alt+Ins