原创 完全分佈式集羣搭建Spark環境並運行“Hello World”

目錄   idea安裝Spark之前 一:windows端環境設置 1:安裝javaJDK1.8 2:環境設置 2.1:環境變量 3:安裝scala2.11.12(注意不要安裝最新或最高版本,視你的操作系統的Idea版本,否則會出現版本衝

原创 Storm集羣 Kafka Mysql實現詞頻統計

目錄   Spout包中: WordSpout: Bolt包中: WordCountBolt: WordSplitBolt:   Topology包中: WoedTopology: Spout包中: WordSpout: package

原创 Storm集羣上運行第一個“Hello World文件”

目錄 1、打開Eclipse創建一個Maven項目 2、添加依賴 3、創建目錄; 4、編寫內容; 5、啓動安裝好集羣的三臺Storm節點; 6、三個節點都啓動ZooKeeper; 7、在主節點啓動nimbus和ui 8、在兩個從節點啓動s

原创 Eclipse-Java實現Storm的WordCount詞頻統計

  目錄 Spout層 Bolt層 Topology層 結果: 文章中的所有內容不明白的可以查看前後文或者call博主; 相關文章: Storm集羣安裝部署1——準備版 Storm集羣安裝部署2——Centos6.5的默認python2.

原创 Storm集羣安裝部署4——在Storm節點服務器上安裝 nimBus和supervisor

目錄 1、在tools文件下上傳apache-storm-x.x.x-incubating文件 2、上傳之後解壓到/home/softwares下面; 3、配置文件; 4、進入conf更改設置 文章中的所有內容不明白的可以查看前後文或者c

原创 Eclipse配置、創建Maven項目

目錄 一、Maven簡介     1、什麼是Maven?     2、什麼是構建工具?     3、Maven有什麼用? 二、Maven的安裝 1、本地安裝 三、Eclipse中配置Maven 四、Eclipse創建Maven項目 文章中

原创 在VMWare虛擬機hadoop上跑我的第一個“Hello World”

接着上一篇文檔之後:手把手教你用虛擬機VMWare搭建hadoop僞分佈式安裝     1. bin/hdfs namenode -format   //格式化文件系統成功後:   2.啓動集羣之後,查看一下是否有3個進程,Name

原创 手把手教你用虛擬機VMWare搭建hadoop僞分佈式安裝

開學三天,就學會了搭大數據平臺,真的,簡直是、我太難了。 --------------------------------------------------------正文分割線-----------------------------

原创 Scala reduceLeft與foldLeft、Range和Stream

目錄 一、reduceLeft和foldLeft的基本解釋 reduceLeft表達式:  foldLeft表達式: 二、reduceLeft和foldLeft的實例應用 三、Range 定義Range 生成Range 四、Stream

原创 Scala Tuple與Map、快速排序

  目錄 一、Tuple 生成Tuple 訪問Tuple 二、Map[K,V] 定義Map 訪問Map中的元素 三、快速排序 一、Tuple Tuple名元組; 生成Tuple “()”生成Tuple。 當()裏只有兩個元素是,成爲Do

原创 Scala基礎語法之變量+Scala數據類型

目錄   變量 Scala類型體系 數值類型(Numeric types): Boolean類型: Char類型: Unit: Null: Nothing: String   變量 三種變量修飾符: val  定義immutable va

原创 運行Scala的四種方式

目錄 1.scala環境下: 2.sbt環境下: 3.IDE中: 4.記事本文件運行方式: report文件 cmd中: 1.scala環境下: 進入cmd 鍵入scala  然後鍵入你想運行的代碼段:   2.sbt環境下: 進入c

原创 MapReduce分佈式離線批處理和YARN資源協調處理

目錄 1.MapReduce和YARN基本介紹 2.MapReduce和YARN功能與架構 MapReduce的功能 YARN的組件架構 MapReduce On YARN任務調度流程 YARN HA方案 YARN APPMaster容錯

原创 Spark2x基於內存的分佈式計算

目錄 1.Spark概述 Spark應用場景: Spark的特點: Spark  VS  MapReduce: 2.Spark原理與架構 Spark Core Spark核心概念RDD: RDD的依賴關係 RDD的Stage劃分 ​ Sp

原创 Hadoop基本概念及其HDFS的基本理念

Hadoop是什麼? hadoop是一個開源的大數據框架; hadoop是一個的分佈式計算的解決方案; hadoop=HDFS(分佈式文件操作系統)+MapReduce(分佈式計算)。   Hadoop的核心? HDFS分佈式文件系統:存