原创 Linux下Hadoop集羣搭建(2.7.3)完全分佈式

一.準備工作 1.1臺已經搭建好的Linux操作系統 2.Hadoop及jdk的安裝包 (Hadoop是用Java開發的,所以Hadoop的編譯及MapReduce的運行都需要使用JDK) 3.上傳文件到Linux的工具  本人習慣用

原创 spark架構,運行原理。

一.簡介Apache Spark是專爲大規模數據處理而設計的快速通用的計算引擎。現在形成一個高速發展應用廣泛的生態系統。Spark 是一個用來實現快速而通用的集羣計算的平臺。Spark 的一個主要特點就是能夠在內存中進行計算,因而更快。不

原创 MapReduce簡介,功能,運行原理,job的提交過程,簡單的MapReduce程序求最高氣溫

一.MapRedeuce簡介    1.2004年12月,google發佈關於MapReduce的文章。    2.hadoop分佈式計算框架。官方定義:MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"M

原创 hadoop集羣資源管理系統YARN以及YARN的運行原理

一.簡介:YARN (Yet Another Resource Negotiator)1.  (官網解釋)最基本的思想是紗線拆分功能的資源管理與作業調度/監控到單獨的進程。具體設想是全球(ResourceManagerRM)和每應用程序(

原创 Hadoop核心組件之HDFS

一.HDFS簡介  HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),源自於Google於2003年10月發表的GFS論文,是GFS克隆版,爲hadoop提供存儲功能。官方解釋:Hado