原创 kafka2.1集羣部署
jdk部署 下載安裝包:wget wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie"
原创 大數據運維 fstab磁盤自動掛載腳本(有瑕疵)
腳本自寫,可根據業務自行調整 #!/bin/bash function hadoop(){ echo "${needmountdisk[0]}磁盤掛載檢查" file=${needmountfile[i]} fil
原创 進程守護工具supervisor的使用部署
supervisor使用: -c/--configuration -- configuration file path (default /etc/supervisord.conf) 指定使用的配置文件:supervisord -c /
原创 docker on yarn
docker on yarn
原创 fstab磁盤批量掛載腳本
#!/bin/bash #HAdoop函數 function hadoop(){ echo "${needmountdisk[0]}磁盤掛載檢查" #獲取掛載文件夾前一個文件夾 file=${needmountfi
原创 spark on yarn多版本共存問題解決方案
使用supervisor啓動多個ExternalShuffleService spark-defaults.conf添加修改ExternalShuffleService端口 注:部署多版本spark時,全局變量不要指定SPA
原创 大數據集羣磁盤離線掛載
一、離線磁盤 1.刪除hdfs配置文件磁盤的信息 vim /etc/hadoop/hdfs-site.xml 進入編輯模式,刪除磁盤信息並保存退出
原创 大數據部分組建相關命令
1、Hadoop集羣 (1)啓動方式切換到主節點的hadoop安裝目錄下的sbin目錄下 a)/start-dfs.sh ./start-yarn.sh (建議使用) b)./start-all.sh (2)關閉方
原创 kafka常見命令
啓動Kafka: /export/servers/zookeeper/bin/zkServer.sh start nohup /home/hadoop/develop_env/kafka/bin/kafka-server-start.sh
原创 kafka常見問題如果想消費已經被消費過的數據
1、 consumer是底層採用的是一個阻塞隊列,只要一有producer生產數據,那consumer就會將數據消費。當然這裏會產生一個很嚴重的問題,如果你重啓一消費者程序,那你連一條數據都抓不到,但是log文件中明明可以看到所有數據都好
原创 mapreduce調優
一、調優的目的 充分的利用機器的性能,更快的完成mr程序的計算任務。甚至是在有限的機器條件下,能夠支持運行足夠多的mr程序。二、調優的總體概述 從mr程序的內部運行機制,我們可以瞭解到一個mr程序由mapper和reduc
原创 oozie錯誤
1、 Cannot run program "en.sh" (in directory "/home/install/hadoop-2.5.0-cdh5.3.6/tmp/nm-local-dir/usercache/hadoop/appc
原创 kafka使用筆記
1、Segment的概念? 一個分區被分成相同大小數據條數不相等的segment, 每個segment由多個index文件和數據文件(.log)組成 2、數據的存儲機制? 首先是Broker接收到數據後,將數據放到操作系統(linux)的
原创 IDEA快捷鍵使用
Ctrl+Alt+t 選擇代碼塊 try catch Alt+回車 導入包,自動修正 Ctrl+N 查找類 Ctrl+Shift+N 查找文件 Ctrl+Alt+L 格式化代碼 Ctrl+Alt+O 優化導入的類和包 Alt+Ins