原创 Kafka架構總結以及常見的面試題總結

kafka名詞說明 分佈式 高吞吐量 消息系統 producer:生產者 consumer:消費者 broker:機器,節點 controller:kafka服務器的主節點 負責管理元數據(zk存儲一份) follower:kafka服務

原创 kafka架構與原理

1、簡介 它可以讓你發佈和訂閱記錄流。在這方面,它類似於一個消息隊列或企業消息系統。 它可以讓你持久化收到的記錄流,從而具有容錯能力。 首先,明確幾個概念: • Kafka運行在一個或多個服務器上。 • Kafka集羣分類存儲的記

原创 awk根據某列進行過濾

awk -F ',' '$6=="山東"{print $6}' W20112701831574791524466.csv | wc -l csv文件中第6列爲山東的行數

原创 pip更新到最新版本

python -m pip install --upgrade pip 用該命令將pip更新到最新版本。  

原创 十五個點,理解Apache Kafka

一、介紹 Kafka在世界享有盛名,大部分互聯網公司都在使用它,那麼它到底是什麼呢?     Kafka由LinkedIn公司於2011年推出,自那時起功能逐步迭代,目前演變成一個完整的平臺級產品,它允許您冗餘地存儲巨大的數

原创 Spark中Accumulator的使用

Accumulator簡介 Accumulator是spark提供的累加器,顧名思義,該變量只能夠增加。  只有driver能獲取到Accumulator的值(使用value方法),Task只能對其做增加操作(使用 +=)。你也可以在爲A

原创 Spark持久化&檢查點

1.持久化 Spark持久化過程包括persist、cache、upersist3個操作       /** Persist this RDD with the default storage level (`MEMORY_ONLY`).

原创 Spark RDD基本轉換

union、intersection、subtract union def union(other: RDD[T]): RDD[T] 該函數比較簡單,就是將兩個RDD進行合併,不去重。 scala> var rdd1 = sc.make

原创 linux安裝pymysql

1. 下載離線安裝包: 地址爲:https://pypi.doubanio.com/simple/pymysql/ 下載指定版本,這裏下載的爲PyMySQL-0.7.11.tar.gz 2.解壓離線包: 首先將壓縮包放到指定位置,執行解壓

原创 spark scala 對dataframe進行過濾----filter方法使用

val df = sc.parallelize(Seq(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))).toDF("id", "num") 對整數類型過濾 邏輯運算符:>, <, ==

原创 Flume中HDFS Sink配置

Flume中的HDFS Sink配置參數說明   type:hdfs path:hdfs的路徑,需要包含文件系統標識,比如:hdfs://namenode/flume/webdata/ filePrefix:默認值:FlumeData,寫

原创 安裝azkaban

準備 mkdir -p  /opt/apps/azkaban cd  /opt/apps/azkaban rz 上傳azkaban-web-server-2.5.0.tar.gz ,azkaban-executor-server-2.5.

原创 centos6安裝mysql5.5

刪除原有mysql # rpm -qa |grep mysql   //查看原有mysql 存在類似如下: qt-mysql-4.6.2-26.el6_4.x86_64 mysql-connector-odbc-5.1.5r1144-7.

原创 centos6安裝CDH5.7.4

下載的包有如下幾個: CDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcel CDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcel.sha manifest.json cloudera-manager

原创 Redis Cluster集羣

Redis Cluster集羣 一、redis-cluster設計 Redis集羣搭建的方式有多種,例如使用zookeeper等,但從redis 3.0之後版本支持redis-cluster集羣,Redis-Clu