台部落迷茫的小矮人

Hive介紹 Hive概述 Hive是基於Hadoop的一個數據倉庫工具。可以鍵結構化的數據文件映射爲一張表，並提供完整的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行。其優點是學習成本低，可以通過類SQL語句快速實

2019-01-21 23:27:31

概述 Flume最早是Cloudera提供的日誌收集系統，後貢獻給Apache。flume支持在日誌系統中定製各類數據發送方，用於收集數據。 Flume是一個高可用、高可靠的，分佈式的海量的日誌採集、聚合和傳輸的系統，Flume支持在

2019-01-21 23:27:31

Hadoop簡介 Hadoop是Apache的頂級項目是一個可靠的、可擴展的、支持分佈式計算的開源項目。歷史創始人是：Doug Cutting 和Mike Hadoop中的HDFS源於2003年Google發表的論文：《Googl

2019-01-17 23:50:12

zookeeper的概念 zookeeper是開源的分佈式的協調服務框架，是Apache Hadoop的自建，適用於絕大部分分佈式集羣的管理分佈式引發的問題 1.死鎖：至少有一個線程佔用了資源，但是不佔用CPU 2.活鎖：所有線程都

2019-01-17 23:50:12

NIO的概念 NIO是jdk1.4出現的新的流，Nio包含三個基本組件：buffer-緩衝區、channel-通道、selector-多路複用選擇器對比： BIO: Blocking IO-同步阻塞式IO–UDP/TCP NIO:N

2019-01-17 00:00:18

concurrent包 concurrent包是jdk1.5提供的一個針對高併發進行編程的包 BlockingQueue 阻塞式隊列：遵循先進先出的原則，阻塞式隊列本身使用過的時候是需要指定界限的。 ArrayBlockingQueu

2019-01-17 00:00:18

yarn的理解 yarn是Hadoop提供的一個用於進行資源調度和任務管理的框架。注意： 1.如果有多個task，那麼會scheduler中形成資源隊列，隊列中存儲的是Container 2.如果資源隊列已滿，這個時候來的新任務

2018-12-27 02:06:55

MapReduce的執行流程 MapReduce是hadoop的計算框架。其中shuffle過程是其核心，但是要了解shuffle過程必須先了解MapReduce的執行流程。 Map任務 1.讀取輸入文件的內容，解析成key-valu

2018-12-27 02:06:54

Hadoop2.0主要的內部框架

2018-12-24 00:18:05

HDFS的簡介 HDFS介紹： HDFS（Hadoop Distributed File System）是hadoop中分佈式文件系統，是hadoop中用於數據存儲的模塊，在存儲數據時會對數據進行切塊，每一個切塊是一個block，ha

2018-12-24 00:18:05

2018-12-08 00:29:19

2018-12-08 00:29:19

2018-12-08 00:29:19

2018-12-08 00:29:19

2018-12-08 00:29:18