原创 Hive的數據存儲(內部表,外部表,分區表,桶表,視圖)

一,Hive的數據存儲 1,基於HDFS 2,沒有專門的數據存儲格式 3,存儲結構主要包括:數據庫,文件,表,視圖 4,可以直接加載文本文件(.txt文件等) 5,創建表示,指定Hive數據的列分隔符與行分隔符 二,Hive的數據

原创 數據結構----直接插入排序

1.基本思想:再要排序的一組數中,假設(n-1)[n>=2]個數已是排好序的,現在要把第n個數插到前面的有序數中,使得這n個數也是排好順序的。如此反覆循環,直到全部排好順序。 2.實例: 3.用java實現: public

原创 數據結構----希爾排序(最小增量排序)

1.基本思想:算法現將要排序的一組數按某個增量d(n/2,n爲要排序數的個數) 分成若干組,每組中記錄的下標相差d。對每組中全部元素進行直接插入排序,然後再用一個較小的增量(d/2)對它進行分組,在每組中在進行直接插入排序。當增量

原创 Hive中自定義函數的實現

1、Hive自定義函數的實現細節 1).自定義UDF需要繼承:org.apache.hadoop.hive.ql.UDF 2).需要evaluate函數,evaluate函數支持重載。 2、Hive自定義函數的部署運行 1).把

原创 數據結構----簡單選擇排序

1.基本思想:在要排序的一數組中,選出最小的一個數組與第一個位置的數交換;然後在剩下的術當中咋i找最小的魚第二個位置的數交換,如此循環到倒數第二個數和最後一個數比較爲止。 2.實例: 3.代碼實現: public stati

原创 HIVE和HBASE區別

1. 兩者分別是什麼? Apache Hive是一個構建在Hadoop基礎設施之上的數據倉庫。通過Hive可以使用HQL語言查詢存放在HDFS上的數據。HQL是一種類SQL語言,這種語言最終被轉化爲Map/Reduce. 雖然Hi

原创 linux下編譯Hive 源碼並導入eclipse中(使用maven)

1.下載hive源碼 官網下載 我下載的hive-2.0.0版本的。 2.使用maven編譯。 一開始我要使用的是ant進行編譯的,可是我的源碼目錄下沒有build.xml文件,只有pom.xml文件,這使得我在使用ant編譯的

原创 想比較傳統消息系統,kafka可以很好的保證有序性~

傳統的隊列在服務器上保存有序的消息,如果多個consumers同時從這個服務器消費消息,服務器就會以消息存儲的順序向consumer分發消息。雖然服務器按順序發佈消息,但是消息是被異步的分發到各consumer上,所以當消息到達時

原创 hbase配置哈環境時遇到的問題

1,master.HMasterCommandLine: Master exiting 日誌中的錯誤信息: 2016-06-13 20:41:51,409 ERROR [main] master.HMasterCommandLin

原创 傳統的HDFS單Namenode架構的侷限性

先來看看幾個基本概念: 1.Namespace(命名空間): 1).有目錄文件以及block組成 2).他支持所有對於命名空間相關係統的操作,如增刪改查。 2.Block Storage Service (

原创 數據結構----快速排序

1.基本思想: 選擇一個基準元素,通常選擇第一個元素和最後一個元素,通過一趟掃描,將待排序列分成兩部分,一部分比基準元素小,一部分大於登陸基準元素,此時基準元素在其排好序之後的正確位置,然後再用同樣的方法遞歸的排序劃分的兩部分。

原创 Hive 數據傾斜解決方案(調優)

在做Shuffle階段的優化過程中,遇到了數據傾斜的問題,造成了對一些情況下優化效果不明顯。主要是因爲在Job完成後的所得到的Counters是整個Job的總和,優化是基於這些Counters得出的平均值,而由於數據傾斜的原因造成

原创 hadoop單元調試:MRunit(maven配置pom.xml)

hadoop進行單元測試時報錯: Found interface org.apache.hadoop.mapreduce.TaskInputOutputContext, but class was expected 我的是因爲

原创 JAVA反射機制詳解

一.Class類的使用 1.在面向對象的世界裏,萬事萬物皆對象。 java語言中,靜態的成員,普通數據類型類 是不是對象呢? 類是誰的對象呢? 類是對象,類是java.lang.Class類的實例對象。 2.這個類怎麼表示

原创 數據倉庫---企業信息工廠(EIF)

企業信息工廠(Corporate Information Factory,簡稱EIF),是一種建立數據倉庫的架構,企業信息工廠的創始人是數據倉庫之父Inmon。 企業信息工廠主要包括集成轉換層(I&T),操作數據倉庫(ODS),