原创 Hadoop---MapReduce

MapReduce 一、什麼是MapReduce ---- 並行計算框架模型 Hadoop MapReduce是一個軟件框架,基於該框架能夠容易易地編寫應⽤用程序,這些應用程序能夠運行在由上千個商⽤用機器器組成的⼤大集羣上,並以一

原创 HBase基礎使用篇01

HBase 高併發處理方案簡圖 一、概述 官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時,可以使用HBase。

原创 Hadoop--Hdfs

Big Data 大數據 1. 數據採集(多個數據源) 2. 數據存儲(分佈式存儲) 3. 數據分析(並行計算) Hadoop **apache軟件基金會的開源項目 提供了大數據集的存儲和大數據集的並行計算模型** Apache

原创 ActiveMQ的簡單使用

1 ActiveMQ介紹 1.1 什麼是ActiveMQ ActiveMQ是Apache出品的一個消息中間件,常用的消息對列主要有ActiveMQ,RabbitMQ,Kafka等,隊列的主要作用是消除高併發訪問高峯

原创 HTTP請求報文和響應報文

HTTP請求報文和響應報文 1.一次完整的HTTP請求所經歷的7個步驟 HTTP通信機制是在一次完整的HTTP通信過程中,Web瀏覽器與Web服務器之間將完成下列7個步驟: 建立TCP連接 在HTTP工作開始之前,Web瀏覽器首先

原创 基於Hadoop生態體系搭建數據分析平臺

基於Hadoop生態體系的數據分析平臺 一、項目設計 架構圖 設計目標 分析系統每日訪問量PV(Page View) 分析系統各個模塊訪問量MV(Model View) 二、環境搭建 安裝Nginx並配置日誌切割 #安裝

原创 mongodb基本使用

mongoDB 一、NoSql簡介 NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”, 泛指非關係型的數據庫 Nosql這個技術門類,早期就有人提出,發展至2009年趨勢越發高漲。 二、NoSQL數據庫

原创 mongodb02集羣搭建

MongoDB集羣 副本集集羣 架構圖 副本集集羣是一組Mongo服務,維護了相同的數據集,提供了高可用及數據冗餘的能力。 # 模擬集羣搭建 # 3個mongodb服務的副本集集羣 # 一個服務器中通過端口號區分不同的mongo

原创 Flum基礎實戰

Flume 架構實戰 Flume是什麼 Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處

原创 Hive基礎使用

Hive Hive介紹 概述 hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 其優點是學習成本低,可以通過類S

原创 kafka基礎篇使用01

Kafka 一、官網 https://kafka.apache.org/intro 一、概述 Apache Kafka是一個分佈式流處理平臺 具備以下三種特性: 發佈和訂閱流式記錄。類似於消息隊列或者企業消息系統 存儲流式數據,並且

原创 HBase基礎使用03-HA集羣搭建

HBase集羣 集羣架構圖 HBase架構篇 HBase架構組成 HBase採用Master/Slave架構搭建集羣,它隸屬於Hadoop生態系統,由一下類型節點組成: HMaster 節點、 HRegionServer 節點、 Z

原创 HBase基礎使用02和MapReduce集成

HBase02 HBase和MapReduce集成 Maven依賴 <!-- hadoop-hdhf所需依賴--> <dependency> <groupId>org.apache.hadoop

原创 HBase基礎使用篇

HBase 高併發處理方案簡圖 一、概述 官網地址: http://hbase.apache.org/ HBase是一種構建在HDFS之上的分佈式、面向列的存儲系統。在需要實時讀寫、隨機訪問超大規模數據集時,可以使用HBase。 特

原创 Hadoop-HA 高可用集羣

Hadoop HA高可用集羣 一、HA集羣 HDFS HA集羣 master\slave YARN HA集羣 master\slave HA(High Available), 高可用性羣集,是保證業務連續性的有效解決方案,避免了因