原创 Hive-複習總結

Hive介紹 Hive概述 Hive是基於Hadoop的一個數據倉庫工具。可以鍵結構化的數據文件映射爲一張表,並提供完整的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行。其優點是學習成本低,可以通過類SQL語句快速實

原创 Flume--複習總結

概述 Flume最早是Cloudera提供的日誌收集系統,後貢獻給Apache。flume支持在日誌系統中定製各類數據發送方,用於收集數據。 Flume是一個高可用、高可靠的,分佈式的海量的日誌採集、聚合和傳輸的系統,Flume支持在

原创 Hadoop--複習總結

Hadoop簡介 Hadoop是Apache的頂級項目是一個可靠的、可擴展的、支持分佈式計算的開源項目。 歷史 創始人是:Doug Cutting 和Mike Hadoop中的HDFS源於2003年Google發表的論文:《Googl

原创 zookeeper--複習總結

zookeeper的概念 zookeeper是開源的分佈式的協調服務框架,是Apache Hadoop的自建,適用於絕大部分分佈式集羣的管理 分佈式引發的問題 1.死鎖:至少有一個線程佔用了資源,但是不佔用CPU 2.活鎖:所有線程都

原创 NIO--複習總結

NIO的概念 NIO是jdk1.4出現的新的流,Nio包含三個基本組件:buffer-緩衝區、channel-通道、selector-多路複用選擇器 對比: BIO: Blocking IO-同步阻塞式IO–UDP/TCP NIO:N

原创 Concurrent包--複習總結

concurrent包 concurrent包是jdk1.5提供的一個針對高併發進行編程的包 BlockingQueue 阻塞式隊列:遵循先進先出的原則,阻塞式隊列本身使用過的時候是需要指定界限的。 ArrayBlockingQueu

原创 Hadoop之yarn

yarn的理解 yarn是Hadoop提供的一個用於進行資源調度和任務管理的框架。 注意: 1.如果有多個task,那麼會scheduler中形成資源隊列,隊列中存儲的是Container 2.如果資源隊列已滿,這個時候來的新任務

原创 Hadoop之MapReduce

MapReduce的執行流程 MapReduce是hadoop的計算框架。其中shuffle過程是其核心,但是要了解shuffle過程必須先了解MapReduce的執行流程。 Map任務 1.讀取輸入文件的內容,解析成key-valu

原创 hadoop2.0簡介

Hadoop2.0主要的內部 框架

原创 Hadoop之HDFS

HDFS的簡介 HDFS介紹: HDFS(Hadoop Distributed File System)是hadoop中分佈式文件系統,是hadoop中用於數據存儲的模塊,在存儲數據時會對數據進行切塊,每一個切塊是一個block,ha

原创 HEAD插件安裝

原创 ES與springboot整合

原创 logstash安裝使用

原创 rabbitmq安裝