台部落fql123455

Spark 概述 Apache Spark是一個快如閃電的統一的分析引擎（僅僅是一款分析引擎，不提供存儲服務）。快：相比較於上一代離線框架MapReduce（磁盤）而言Spark基於內存計算較快。統一：Spark提供統一API

2019-09-26 21:41:41

一.概述 1.大數據概念大數據（big data）是指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策能力、洞察發現能力和流程優化能力的海量、高增長率和多樣化的信息資產。

2019-09-08 21:49:40

1.環境搭建新建Maven工程，導入相關依賴 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId>

2019-09-08 21:49:40

開局一張圖 1.HBase結構的組成 HBase 採用Master/Slave架構搭建集羣，它隸屬於Hadoop生態體系，主要由HMasrer節點、HRegionServer節點、Zookeeper集羣組成。在底層，它將數據存

2019-09-08 21:49:40

1.概述 Flume是一個分佈式、可靠、高可用的高效的日誌數據收集、聚合以及傳輸系統。它簡單和靈活的架構是基於數據流的。Flume具備強大的容錯保證機制，有多種容錯和恢復保證。Flume使用簡單可擴展的數據模型允許開發在線分析處

2019-09-08 21:49:40

**注意：在生產環境下，MapReduce Application一定是運行在YARN 分佈式集羣之中但在測試開發MapReduce程序階段，可以使用以下方式，來測試代碼 ** 1.本地計算+本地數據本地計算指的是藉助於w

2019-09-08 21:49:40

1.什麼是元數據元數據是存儲HDFS重要信息的元素按類型可分爲文件、目錄自身的屬性信息，例如文件名、目錄名、修改信息等文件記錄的信息的存儲相關的信息，例如存儲塊信息、分塊情況、副本個數等。 3.記錄HDFS和DataN

2019-09-08 21:49:40

1.什麼是YARN Apache Hadoop YARN(Yet Another Resource Negotiator),是一種資源協調者，是一種新的Hadoop資源管理器，它是一個通用資源管理系統，可以爲上層應用提供統一的資源

2019-09-08 21:49:40

1.概述 Kafka Streams是一個用於構建應用程序和微服務的客戶端庫，其中的輸入和輸出數據存儲在Kafka集羣中。它結合了在客戶端編寫和部署標準Java和Scala應用程序的簡單性，以及Kafka服務器端集羣技術的優點。

2019-09-08 21:49:40

1.Spring註解提出的目的目的：爲了方便我們快速開發 2.Spring中相關注解 1. 實例化相關注解 @Component(value="") 修飾範圍：作用在類上註解作用：用來創建這個組件的對象

2019-09-08 21:49:40

開局一張圖 1.什麼是Shuffle? Shuffle,是指對Map輸出結果進行分區、排序、合併等處理並交給Reduce 的過程。分爲Map端的操作和Reduce端的操作。 2.Shuffle過程 1.Map端的Shuffle

2019-09-08 21:49:40

1.DSL概述 Kafka Streams DSL（Domain Specific Language）構建於Streams Processor API之上。它是大多數用戶推薦的，特別是初學者。大多數數據處理操作只能用幾行DSL代

2019-09-08 21:49:40

1.拓撲程序中的基本概念 Stream:流數據，持續不斷產生的數據流。 Spout:數據源，類似於kafka Streaming中的Source組件，負責從外部的存儲系統獲取一條條記錄，並且會將這些記錄封裝爲一個Tuple（元

2019-09-08 21:49:40

1.二者爲什麼要集成 HBase是一個基於Hadoop的數據庫，它可靠、分佈式適合結構化大數據的存儲。其當然要與分佈式的計算框架MapReduce相結合。 2.集成操作 1.創建Maven項目導入相關依賴 <!--mapre

2019-09-08 21:49:40

1.Apache Storm概述 Apache Storm是一款免費開源的分佈式實時計算的框架（流處理） Apache Storm可以非常容易並且可靠的處理無界的流數據，進行實時的分析處理。 Apache Storm支持多種編

2019-09-08 21:49:40