原创 Hive表結構總結

Hive五種表結構特性 1,內部表:當刪除內部表時,HDFS上的數據以及元數據都會被刪除 2,外部表:但刪除外部表時,HDFS上的源數據不會被刪除但元數據會被刪除 3,臨時表:在當前會話期間存在,會話結束時自動消失。 4,分區表:將一

原创 Hive原理及Hive的搭建

Hive簡介 什麼是Hive hive是基於Hadoop的一個數據倉儲工具,可以將結構化的數據文件映射爲一張數據表,並提供SQL查詢功能,可以將SQL語句轉化爲MapReduce任務進行執行。hive是基於Hadoop的一個數據倉儲

原创 MapReduce的原理及執行過程

MapReduce簡介         Hadoop MapReduce是一個軟件框架,基於該框架能夠容易地編寫應用程序,這些應用程序能夠運行在由上千個商用機器組成的大集羣上,並以一種可靠的,具有容錯能力的方式並行地處理上TB級別的海

原创 Eclipse配置Hadoop開發環境+HDFS Java API測試

1. 添加插件 下載在Windows Eclipse上需要的一些額外的文件:hadoop-eclipse-plugin-2.6.0.jar 在eclipse安裝目錄的dropins目錄下新建plugin文件目錄,把上面下載的jar包放

原创 Yarn集羣規劃和搭建

一、hadoop集羣搭建 請參考前面幾篇博客,下面我們就在前面集羣的基礎上進行yarn集羣搭建。 二、規劃 NN1 NN2 DN ZK ZKFC JNN RS NM node01 √ √ √ node02

原创 HDFS完全分佈式的搭建

1,同步時間 上網找一個最新的時間服務器,同步時間,保證整個集羣的每臺機器時間都一樣。 yum install ntp //在各個節點安裝ntp命令 ntpdate ntp1.aliyun.com //同步時間 2,配置免密登錄 n

原创 高可用完全分佈式搭建

高可用的完全分佈式搭建 HA HDFS結構圖 這種設計模式的特點: ①採用了兩個namenode,一個對外提供服務,一個同步備份namenode元數據以待切換,防止發生異常,導致namenode掛掉。 ②所有的datenode同時向

原创 HDFS 僞分佈式的搭建

三種分佈式介紹 1,僞分佈式 在一臺服務器上,啓動多個進程,分別表示各個角色 2,完全分佈式 在多臺服務器上,每臺服務器啓動不同角色的進程,使用多臺服務器組成HDFS集羣 node01:namenode node02:secondar

原创 分佈式存儲學習腦圖

分佈式存儲學習腦圖

原创 大數據初接觸(筆記一)

1,什麼是大數據        簡單的說:就是短時間內快速的、產生海量的、多種多樣的、有價值的數據。 2,大數據技術: 分佈式存儲 分佈式計算 1,分佈式批處理 攢一段時間的數據,然後在未來的某一個時間來處理這些數據 2,分佈式流處理

原创 HDFS原理(筆記二)

1,HDFS集羣存儲流程圖 流程圖解析 1,系統啓動過程步驟 ①當集羣啓動時,DN向NN發送一些信息(Block的位置信息、每一個DN的位置信息、DN的心跳信息(DNID)等) ②客戶端彙報當前要上傳的文件信息(block數量、文件

原创 Servlet登錄小實例

1,目錄及效果圖 2,登錄界面 <%@page contentType="text/html;charset=utf-8"%> <!DOCTYPE html> <html lang="en"> <head> <met