原创 kafka簡答題

kafka工作流程 Kafka生態系統四大角色,生產者(Producer)、kafka集羣(Broker)、消費者(Consumer)、zookeeper 每個消費者都必須屬於一個消費組,一個組內的消費者可以多個。 一個Topic可以有

原创 RDD累加器和廣播變量

在默認情況下,當Spark在集羣的多個不同節點的多個任務上並行運行一個函數時,它會把函數中涉及到的每個變量,在每個任務上都生成一個副本。但是,有時候需要在多個任務之間共享變量,或者在任務(Task)和任務控制節點(Driver Progr

原创 RDD-API

一、創建RDD 1.由外部存儲系統的數據集創建,由外部存儲系統的數據集創建,包括本地的文件系統,還有所有Hadoop支持的數據集,比如HDFS、Cassandra、HBase等 val rdd1 = sc.textFile("hdfs:/

原创 Spark SQL初體驗

一、入口-SparkSession ●在spark2.0版本之前 SQLContext是創建DataFrame和執行SQL的入口 HiveContext通過hive sql語句操作hive表數據,兼容hive操作,hiveContext繼

原创 Spark Streaming的使用

一、Spark Streaming引入 集羣監控 一般的大型集羣和平臺, 都需要對其進行監控的需求。 要針對各種數據庫, 包括 MySQL, HBase 等進行監控 要針對應用進行監控, 例如 Tomcat, Nginx, Node.js

原创 scala 基本介紹與用法(三)

目錄   二十二、類和對象 創建類和對象 二十三、定義和訪問成員變量 二十四、使用下劃線初始化成員變量 二十五、定義成員方法 二十六、訪問修飾符 二十七、類的構造器 主構造器 輔助構造器 二十八、單例對象 二十九、工具類案例 三十、mai

原创 yarn簡答題

1、什麼是Yarn          通用資源管理系統和調度平臺 2、Yarn特點: 支持多計算框架 資源利用率高,運行成本低,數據共享。   3、Yarn的意義: 降低了企業硬件的成本(多個集羣變成一個集羣),減少了資源的了浪費,運營成

原创 RDD依賴關係與DAG

一、寬窄依賴 兩種依賴關係類型 RDD和它依賴的父RDD的關係有兩種不同的類型,即 寬依賴(wide dependency/shuffle dependency) 窄依賴(narrow dependency) 圖解   如何區分寬窄

原创 kafka監控及運維(監控管理工具kafka-eagle)

kafka-eagle概述  爲了簡化開發者和服務工程師維護Kafka集羣的工作有一個監控管理工具,叫做 Kafka-eagle。這個管理工具可以很容易地發現分佈在集羣中的哪些topic分佈不均勻,或者是分區在整個集羣分佈不均勻的的情況。

原创 RDD的持久化/緩存

在實際開發中某些RDD的計算或轉換可能會比較耗費時間,如果這些RDD後續還會頻繁的被使用到,那麼可以將這些RDD進行持久化/緩存,這樣下次再使用到的時候就不用再重新計算了,提高了程序運行的效率 持久化/緩存API詳解 persist方法和

原创 kafka消息不丟失制(ack機制)

一、生產者生產數據不丟失 1、生產者數據不丟失過程圖 說明:有多少個分區,就啓動多少個線程來進行同步數據 2、 發送數據方式 可以採用同步或者異步的方式-過程圖   可以採用同步或者異步的方式 同步:發送一批數據給kafka後,等

原创 IDEA開發Spark程序

pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="

原创 Spark原理簡單介紹

http://spark.apache.org/docs/latest/cluster-overview.html   名詞解釋 1.Application:指的是用戶編寫的Spark應用程序/代碼,包含了Driver功能代碼和分

原创 hive Could not connect to node01:10000

Could not connect to node01:10000   原因 無法連接端口node01節點的10000端口 解決 1、檢查是否開啓hiveserver2服務 hive --service hiveserver2 & 2、

原创 【hive】分區表映射修復表之後沒數據

出現的問題: 分區表映射修復表之後沒數據 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. MetaException