原创 還沒找到大數據工作的同學趕緊看看這個帖子!!!

爲什麼找不到工作? 今年是不平凡的一年,今年的面試真的是難上加難,大數據崗位本來就少,今年加上疫情企業縮招,導致大多數的大數據學習者找不到工作 怎麼才能找到工作? 找對方法,系統複習 沒有面試機會創造面試機會 多投簡歷,投100

原创 SparkCore之RDDAPI編程

編程模型 在Spark中,RDD被表示爲對象,通過對象上的方法調用來對RDD進行轉換。經過一系列的transformations定義RDD之後,就可以調用actions觸發RDD的計算,action可以是嚮應用程序返回結果(cou

原创 kafka集羣基本操作

1、創建topic 創建一個名字爲test的主題, 有三個分區,有兩個副本 node09執行以下命令來創建topic cd /export/servers/kafka_2.11-1.0.0 bin/kafka-topics.sh

原创 hadoop配置HA詳細教程

準備工作 1.修改Linux主機名 2.修改IP 3.修改主機名和IP的映射關係 /etc/hosts 4.關閉防火牆 5.ssh免登陸 6.安裝JDK,配置環境變量等 7.注意集羣時間要同步 集羣部署節點角色的規劃(3節點) -

原创 kafka必背的知識點

1.什麼是kafka 是一個分佈式,多分區的,多副本的,多訂閱者的消息發佈訂閱系統。   2、kafka的使用場景 應用耦合 異步處理 限流削峯 消息驅動的系統   3.kafka優缺點 優點:可靠性強(分佈式-分區-副本)、擴展性強(可

原创 Yarn 調度器Scheduler

  理想情況下,我們應用對Yarn資源的請求應該立刻得到滿足,但現實情況資源往往是有限的,特別是在一個很繁忙的集羣,一個應用資源的請求經常需要等待一段時間才能的到相應的資源。在Yarn中,負責給應用分配資源的就是Scheduler。其實調

原创 Yarn三大組件介紹及運行流程

Yarn三大組件 ResourceManager ResourceManager負責整個集羣的資源管理和分配,是一個全局的資源管理系統。 NodeManager以心跳的方式向ResourceManager彙報資源使用情況(目前主要是CPU

原创 kafka的架構介紹

1、生產者API 允許應用程序發佈記錄流至一個或者多個kafka的主題(topics)。 2、消費者API 允許應用程序訂閱一個或者多個主題,並處理這些主題接收到的記錄流。 3、StreamsAPI 允許應用程序充當流處理器(strea

原创 SparkSQL之一張貼告訴你什麼是SparkSQL

什麼是SparkSQL? Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了2個編程抽象:DataFrame和DataSet,並且作爲分佈式SQL查詢引擎的作用。 我們已經學習了Hive,它是將Hive SQL

原创 spark安裝之Standalone集羣模式

集羣角色介紹 Spark是基於內存計算的大數據並行計算框架,實際中運行計算任務肯定是使用集羣模式,那麼我們先來學習Spark自帶的standalone集羣模式瞭解一下它的架構及運行機制。 Standalone集羣使用了分佈式計算中

原创 一張圖來分析kafka必備的知識點

kafka知識點彙總 這張圖中包含的知識點: 1、Kafka生態系統四大角色,生產者(Producer)、kafka集羣(Broker)、消費者(Consumer)、zookeeper 2、每個消費者都必須屬於一個消費組,一個組

原创 SparkCore之RDD的特點

RDD特點 RDD表示只讀的分區的數據集,對RDD進行改動,只能通過RDD的轉換操作,由一個RDD得到一個新的RDD,新的RDD包含了從其他RDD衍生所必需的信息。RDDs之間存在依賴,RDD的執行是按照血緣關係延時計算的。如果血緣關係較

原创 spark安裝之standalone-HA高可用模式

原理 Spark Standalone集羣是Master-Slaves架構的集羣模式,和大部分的Master-Slaves結構集羣一樣,存在着Master單點故障的問題。 如何解決這個單點故障的問題,Spark提供了兩種方案:

原创 一張貼告訴你什麼是消息隊列

1、消息隊列的介紹 消息(Message):是指在應用之間傳送的數據,消息可以非常簡單,比如只包含文本字符串,也可以更復雜,可能包含嵌入對象。 消息隊列(Message Queue):是一種應用間的通信方式,消息發送後可以立即返回,由消息

原创 SparkCore之RDD緩存

RDD通過persist方法或cache方法可以將前面的計算結果緩存,默認情況下 persist() 會把數據以序列化的形式緩存在 JVM 的堆空間中。 但是並不是這兩個方法被調用時立即緩存,而是觸發後面的action時,該RD