原创 Spark的概念和架構

Spark 概述 Apache Spark是一個快如閃電的統一的分析引擎(僅僅是一款分析引擎,不提供存儲服務)。 快:相比較於上一代離線框架MapReduce(磁盤)而言Spark基於內存計算較快。 統一:Spark提供統一API

原创 Hadoop

一.概述 1.大數據 概念 大數據(big data) 是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策能力、洞察發現能力和流程優化能力的海量、高增長率和多樣化的信息資產。

原创 MapReduce的應用程序開發

1.環境搭建 新建Maven工程,導入相關依賴 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

原创 HBase架構

開局一張圖 1.HBase結構的組成 HBase 採用Master/Slave架構搭建集羣,它隸屬於Hadoop生態體系,主要由HMasrer節點、HRegionServer節點、Zookeeper集羣組成。在底層,它將數據存

原创 Flume框架

1.概述 Flume是一個分佈式、可靠、高可用的高效的日誌數據收集、聚合以及傳輸系統。它簡單和靈活的架構是基於數據流的。Flume具備強大的容錯保證機制,有多種容錯和恢復保證。Flume使用簡單可擴展的數據模型允許開發在線分析處

原创 MapReduce應用程序的其它運行方式

**注意: 在生產環境下,MapReduce Application一定是運行在YARN 分佈式集羣之中 但在測試開發MapReduce程序階段,可以使用以下方式,來測試代碼 ** 1.本地計算+本地數據 本地計算指的是藉助於w

原创 HDFS元數據的持久化操作

1.什麼是元數據 元數據是存儲HDFS重要信息的元素 按類型可分爲 文件、目錄自身的屬性信息,例如文件名、目錄名、修改信息等 文件記錄的信息的存儲相關的信息,例如存儲塊信息、分塊情況、副本個數等。 3.記錄HDFS和DataN

原创 YARN與MapReduce

1.什麼是YARN Apache Hadoop YARN(Yet Another Resource Negotiator),是一種資源協調者,是一種新的Hadoop資源管理器,它是一個通用資源管理系統,可以爲上層應用提供統一的資源

原创 kafka Streaming

1.概述 Kafka Streams是一個用於構建應用程序和微服務的客戶端庫,其中的輸入和輸出數據存儲在Kafka集羣中。它結合了在客戶端編寫和部署標準Java和Scala應用程序的簡單性,以及Kafka服務器端集羣技術的優點。

原创 Spring中的註解開發

1.Spring註解提出的目的 目的:爲了方便我們快速開發 2.Spring中相關注解 1. 實例化相關注解 @Component(value="") 修飾範圍:作用在類上 註解作用:用來創建這個組件的對象

原创 Shuffle原理剖析

開局一張圖 1.什麼是Shuffle? Shuffle,是指對Map輸出結果進行分區、排序、合併等處理並交給Reduce 的過程。分爲Map端的操作和Reduce端的操作。 2.Shuffle過程 1.Map端的Shuffle

原创 kafka Streaming的 High-level

1.DSL概述 Kafka Streams DSL(Domain Specific Language)構建於Streams Processor API之上。它是大多數用戶推薦的,特別是初學者。大多數數據處理操作只能用幾行DSL代

原创 Storm單詞計數案例的編寫

1.拓撲程序中的基本概念 Stream:流數據,持續不斷產生的數據流。 Spout:數據源,類似於kafka Streaming中的Source組件,負責從外部的存儲系統獲取一條條記錄,並且會將這些記錄封裝爲一個Tuple(元

原创 hBase與MapReduce的集成

1.二者爲什麼要集成 HBase是一個基於Hadoop的數據庫,它可靠、分佈式適合結構化大數據的存儲。其當然要與分佈式的計算框架MapReduce相結合。 2.集成操作 1.創建Maven項目導入相關依賴 <!--mapre

原创 Storm的架構

1.Apache Storm概述 Apache Storm是一款免費開源的分佈式實時計算的框架(流處理) Apache Storm可以非常容易並且可靠的處理無界的流數據,進行實時的分析處理。 Apache Storm支持多種編