原创 Hadoop集羣安裝,三種

Linux環境設置 /*安裝Hadoop集羣時要確保以下幾個方面 1.本機與虛擬機之間是否可以通信(Ping)。如果不行檢查下面       1.1本機防火牆關閉(開啓情況是本機可以ping虛擬機,虛擬機不能ping本機)       1

原创 HDFS的概念

1.1 HDFS的介紹 ​ 源自於Google的GFS論文 發表於2003年10月 HDFS是GFS克隆版 ,HDFS的全稱是Hadoop Distributed File System易於擴展的分佈式文件系統,運行在大量普通廉價機器上,

原创 HDFS的java api使用

1.2 HDFS控制(Java) hadoop中關於文件操作類基本上全部是在org.apache.hadoop.fs包中,這些api能夠支持的操作包含:打開文件,讀寫文件,刪除文件等。 FileSystem,該類是個抽象類,只能通過來類的

原创 MR 的shuffle機制

mapreduce高級特性及shuffle 第一節:shuffle機制 1.1 概述 mapreduce中,map階段處理的數據如何傳遞給reduce階段,是mapreduce框架中最關鍵的一個流程,這個流程就叫shuffle;shuff

原创 hadoop分佈式集羣搭建

一、分佈式集羣搭建 1.HADOOP集羣規劃 2.HADOOP集羣安裝步驟 1.準備三臺Centos6.7 64bit虛擬機,虛擬機名分別爲: Centos6.7_min1 Centos6.7_min2 Centos6.7_min3 注

原创 Hadoop HA

第一節:HADOOP HA概述 1.1 背景 ​ 在Hadoop 2.0.0之前,NameNode是HDFS集羣中的單點故障(SPOF)。每個羣集都有一個NameNode,如果該機器或進程不可用,整個羣集將不可用,直到NameNode重新

原创 MR多表連接

mapreduce高級特性3 第一節:結合案例講解mr重要知識點 1.1 多表連接 第一張表的內容: login: uid sexid logindate 1 1 2017-04-17 08:16:20 2   2 20

原创 zookeeper集羣配置

集羣規劃 主機名(hostname) 安裝軟件 運行進程 min1 zookeeper-3.4.7 QuorumPeerMain min2 zookeeper-3.4.7 QuorumPeerMain min3 zookeeper-3.

原创 大數據沒啥

大數據是人工智能、物聯網和雲計算的中間件 點贊 收藏 分

原创 Hadoop是什麼?基本概念

1.1 什麼是HADOOP Apache Hadoop 爲可靠的,可擴展的分佈式計算開發開源軟件。Apache Hadoop軟件庫是一個框架,它允許使用簡單的編程模型跨計算機羣集分佈式處理大型數據集(海量的數據)。包括這些模塊: Hado

原创 zookeeper的概念

什麼是zookeeper Zookeeper是一個分佈式協調服務;就是爲用戶的分佈式應用程序提供協調服務 zookeeper是爲別的分佈式程序服務的 Zookeeper本身就是一個分佈式程序(只要有半數以上節點存活,zk就能正常

原创 zookeeper java API 的使用

1 eclipse環境配置 普通的java項目 創建一個java項目 依賴的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar net

原创 spark streaming

Spark Streaming 課程目標 掌握Spark Streaming的原理 熟練使用Spark Streaming完成流式計算任務 Spark Streaming介紹 Spark Streaming概述 什麼是Spark

原创 hive的介紹

hive的產生 hive的介紹 hive的安裝 hive的數據類型 基本命令操作 一、hive產生背景 Apache Hive數據倉庫軟件可以使用SQL方便地閱讀、編寫和管理分佈在分佈式存儲中的大型數據集。結構可以投射到已經存儲的數據上。

原创 spark RDD

Spark計算模型 目標 熟練使用RDD的算子完成計算 掌握RDD的原理 彈性分佈式數據集RDD RDD概述 什麼是RDD RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中最