原创 大數據開發提升之路——知識梳理(一)

一、 資源管理工具 1.資源調度模式 1.1 local模式(本地) 運行該模式非常簡單,只需要把Spark的安裝包解壓後,改一些常用的配置即可使用,而不用啓動Spark的Master、Worker守護進程( 只有採用集羣的Sta

原创 Scala 知識點總結

1.什麼是scala語言? 函數式編程語言 Scala 官網:https://www.scala-lang.org/ Scala 是一種多範式的編程語言,其設計的初衷是要集成面向 對象編程和函數式編程的各種特性。Scala 運行於

原创 Spark經典面試題

1.什麼是spark? spark是基於內存計算的通用大數據並行計算框架,是一個快速、通用可擴展的大數據分析引擎。它給出了大一統的軟件開發棧,適用於不同場合的分佈式場景,如批處理、迭代算法、交互式查詢、流處理、機器學習和圖計算。

原创 MapReduce中大量小文件是如何產生的?如何優化?

在分佈式的架構中,分佈式文件系統HDFS,和分佈式運算程序編程框架mapreduce。 問題: HDFS:不怕大文件,怕很多小文件 mapreduce :怕數據傾斜 那麼mapreduce是如果解決多個小文件的問題呢? mapre

原创 SparkStreaming+Kafka

SparkStreaming+Kafka 維護消費者offset SparkStreaming+Kafka Receiver 模式 SparkStreaming+Kafka Direct 模式

原创 kafka的消息存儲和生產消費模型

kafka的消息存儲和生產消費模型 • 一個topic分成多個partition • 每個partition內部消息強有序,其中的每個消息都有一個序號叫offset • 一個partition只對應一個broker,一個broke

原创 kafka知識點總結

1.什麼是kafka? (開放性問題) Kafka是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。 這種動作是在現代網絡上的許多社會功能的一個關鍵因素。 這些數據通常是由於吞吐量的要求而通過處理日

原创 Linux常用命令

Linux命令總結 一、Vi/Vim編輯器 1.1一般模式 以vi打開一個檔案就直接進入一般模式了(這是默認的模式)。在這個模式中, 你可以使用『上下左右』按鍵來移動光標,你可以使用『刪除字符』或『刪除整行』來處理檔案內容

原创 spark優化要點(開發)

背景 爲什麼需要調優?? 程序都是能跑的,集羣還是那個集羣,但是有可能另外一個會調優的人和你寫的代碼的運行的速度要幾倍甚至幾十倍 1.開發調優 1.1 原則一:避免創建重複的RDD 我們有一份數據 ,student.txt 第一

原创 Zookeeper

Zookeeper是什麼? Zookeeper是一個分佈式協調服務的開源概架,主要用來解決分佈式集羣中應用系統的一致性問題,例如怎樣避免網時操作同一數據造成髒讀的間題,ZooKee區本質上是一個分佈式的小文件存儲系統,提供基於類似

原创 關於Kafka必須要知道的幾個問題

1、用自己的語言大致描述kafka架構原理圖 1>創建topic設置分區和副本數,生產者以<key,value>的方式發佈數據到borker上的leader 副本[如果副本數不爲1,zookeeper通過監聽機制向kafka發出

原创 SparkShuffle 及性能調優

shuffle調優 調優概述   大多數Spark作業的性能主要就是消耗在了shuffle環節,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此,如果要讓作業的性能更上一層樓,就有必要對shuffle過程進行調優。

原创 Spark經典面試題(二)

1.什麼是spark? spark是基於內存計算的通用大數據並行計算框架,是一個快速、通用可擴展的大數據分析引擎。它給出了大一統的軟件開發棧,適用於不同場合的分佈式場景,如批處理、迭代算法、交互式查詢、流處理、機器學習和圖計算。