原创 MAP/REDUCE-shuffle流程簡單概述

我簡單地將shuffle流程分成以下兩部分: map task 程序會根據InputFormat將輸入文件分割成splits,每個split會作爲一個map task的輸入,每個map task會有一個內存緩衝區,輸入數據經過m

原创 R-運算符

運算符是每一門編程語言必不可少的一塊重要知識點。 R語言中運算符有以下幾種: 1、算數運算符; 2、關係運算符; 3、邏輯運算符; 4、賦值運算符; 5、其他運算符。 算數運算符: 符號 含義 案例 + 兩個向量相加

原创 R-變量與類型

變量 R語言的變量非常神奇,比較java、python來說 A容器沒有標籤,可以裝任何類型的值------------------R B容器一開始就有標籤,只能裝定義類型的值---------java C容器用了一次就有了標籤,只

原创 R-認識與安裝

在統計分析的路上,R語言越走越遠。在這一章,我將爲大家初步介紹一下“什麼是R?” R 是一種統計分析軟件,具有統計分析與製圖的功能。支持 Unix,Linux,Windows 和 MacOS 等操作系統。R是一套由數據操作、計算

原创 FLUME-KAFKA-SPARK STREAMING -實時計算框架搭建

首先,我們需要一個模擬實時數據,用來生成日誌文件 File ctoFile = new File(args[0]); File dest=new File(args[1]); InputStreamReader rdCto =

原创 HIVE-Hive搭建

文章目錄Hive安裝mysql安裝hiveserver2搭建與可視化客戶端安裝 Hive安裝 先決條件 java1.7及以上 hadoop 2.X以上 下載地址 http://archive.apache.org/dist/hive/

原创 HIVE-Hive的簡單概述

什麼是Hive? Hive是一種構建數據倉庫的工具。裏面有表的概念。 在Mysql裏從表中插入的數據,會放在磁盤上。再打開這個表的時候,會把磁盤上的數據規整到一個表格裏顯示。 但是計算機不會自己規整成表格,所以在Hive中需要一份元數

原创 HDFS-HA搭建(基於完全分佈式)

hadoop HA(高可用) Quorum Journal Manager: 以共享活動和備用NameNode之間的編輯日誌 影響了HDFS集羣(導致namenode發生故障)對於計劃外事件(例如計算機崩潰),在操作員重新啓動Nam

原创 HBASE-HBase概述

什麼是HBase? HBase是一種非關係型數據庫(NoSQL)。 “NoSQL"是一個通用詞表示數據庫不是RDBMS(關係型數據庫管理系統),後者支持 SQL 作爲主要訪問手段。有許多種 NoSQL 數據庫: BerkeleyDB

原创 MAP/REDUCE-shuffle流程詳解

我簡單地將shuffle流程分成以下兩部分: map task 程序會根據InputFormat將輸入文件分割成splits,每個split會作爲一個map task的輸入,每個map task會有一個內存緩衝區,輸入數據經過map

原创 MAP/REDUCE-map-reduce詳解

MapReduce是什麼? Hadoop MapReduce是一個軟件框架,基於該框架能夠容易地編寫應用程序,這些應用程序能夠運行在由上千個商用機器組成的大集羣上,並以一種可靠的,具有容錯能力的方式並行地處理上TB級別的海量數據集

原创 HDFS-剖析文件寫入(寫流程)

寫流程解析 public static void main(String[] args) throws Exception { //加載本地指定目錄下的文件 InputStream is = new BufferedI

原创 HDFS-HDFS體系架構

一、體系架構 HDFS 採用的是master/slaves主從結構模型來管理數據,這種結構模型主要由四個部分組成:Client(客戶端)、Namenode(名稱節點)、Datanode(數據節點)和SecondaryNamenode

原创 HDFS-HDFS的設計理念

HDFS簡介 首先,什麼是HDFS呢? HDFS,即hadoop distributed file system(hadoop分佈式文件系統),在非正式文檔或舊文檔及配置文件中,有時也簡稱DFS,這都是一樣的。 HDFS是一個高度容錯

原创 HDFS-僞分佈搭建

文章目錄僞分佈安裝步驟(1)開啓sudo(2)修改主機名(3)配置靜態IP(4)配置主機與IP的映射(5)安裝java和hadoop(6)修改配置文件(可參照官網)(7)設置免密登錄(ssh)(8)啓動hdfs 僞分佈安裝步驟 (1)