原创 二十六:Spark-submit提交一個WC任務源碼解析:

一:準備工作: 1.1 準備一個被統計文件: [root@hadoop001 ~]# hadoop fs -ls /logs/input Found 1 items -rw-r–r-- 3 root supergroup

原创 二十五:Caused by: java.net.UnknownHostException: nameservice1(CDH 5.14 部署spark2第一次運行報錯)

一: 問題描述: CDH 5.14部署好spark2後,寫了個WC統計程序,並寫了如下執行語句: $SPARK_HOME/bin/spark2-submit \ --master local[2] \ --class com.weiz

原创 二十四:RDD源碼分析

一:初識Spark: 進入官網 http://spark.apache.org Apache Spark™ is a unified analytics engine for large-scale data processing A

原创 二十二:Flume+kafka+spark日誌採集故障分析

一:問題現象: 對Flume的soure進行了開發:增加了兩列:最終要實現的效果如下:可是一起就緒,在本地斷就是沒有數據輸出 計劃Flume+kafka+spark進行消費,在本地測試麼有數據過來,然後打開kafka消費端查看,

原创 二十一:CDH5.14離線安裝Apache Spark 2

一:當有需要CDH安裝Apache Spark 2時: 老規矩,從官網開始: https://www.cloudera.com/documentation.html https://www.cloudera.com/documenta

原创 二十:CDH5.14離線安裝kafka (含版本選擇)

一:當安裝好CDH的hadoop後,準備安裝kafka,可是CDH上添加服務是這樣的,沒法直接添加,需要添加相應包纔可以: Apache Kafka is publish-subscribe messaging rethought a

原创 十九:Centos7.4離線安裝CDH5.14-阿里雲

在前面準備環境已經到位後,下面就可以正式安裝了: 一:安裝http和啓動http服務: yum install -y httpd systemctl status httpd.service systemctl list-unit-f

原创 十七:CDH介紹及官網信息

一:背景: 1.1在部署Apache Hadoop 及周邊軟件時,隨時不是這個啓動不了,就是這裏哪裏有問題:主要表現在: • 版本管理混亂   • 部署過程繁瑣、升級過程複雜   • 兼容性差   • 安全性低 1.2 、社區版本與第

原创 十八:Centos7.4離線安裝CDH5.14環境準備-阿里雲

一:核心軟件包下載: CDH安裝需要兩類軟件包:依據自己的系統匹配對應的CDH版本: 兩類文件包: 1.repo-as-tarball cm管理(server agent 閉源) http://archive.cloudera.com

原创 四:壓縮相關

壓縮 好處:1、減少存儲磁盤空間 2、降低IO(網絡的IO和磁盤的IO) 3、加快數據在磁盤和網絡中的傳輸速度,從而提高系統的處理速度 壞處 由於使用數據時,需要先將數據解壓,加重CPU負荷 本文主要查看hadoop的壓縮模式:從原

原创 十六: brokerList must contain at least one Kafka broke 案例及其它幾個坑-阿里雲

一:啓動flume 告警如下: nohup bin/flume-ng agent \ -c /home/hadoop/app/apache-flume-1.6.0-cdh5.7.0-bin/conf -f /home/hadoop/

原创 十五:kafka核心實驗和全局有序

一:模擬實驗: 1.1:如何查看生成者和消費者啓動命令: 1.2 console啓動消費者和消費者命令: 消費者是zk bin/kafka-console-consumer.sh \ --zookeeper 172.17.4.16:

原创 十四:kafka的topic創建和解析

一:檢查kafka是否成功: 創建topic,如能成功創建topic則表示集羣安裝完成, 也可以用jps命令查看kafka進程是否存在 bin/kafka-topics.sh \ --create \ --zookeeper 172.

原创 十二:Flumue操作Channel-Memory/File Channel¶

一:常用channel概述: 1.1 memory 弊端:在使用Memory作爲channel時,需注意source過來的數據 和SINK寫出的速度,防止數據處理不過來導致內存掛掉,需要優化兩個具體的參數。 同時用memory作爲c

原创 十三:kafka分佈式部署

一:kafka概述: 就一個消息中間件,當前官網叫做:分佈式流平臺a distributed streaming platform: A streaming platform has three key capabilities: 1