原创 Hive分區、分桶操作及其區別

1,Hive分區。      是指按照數據表的某列或某些列分爲多個區,區從形式上可以理解爲文件夾,比如我們要收集某個大型網站的日誌數據,一個網站每天的日誌數據存在同一張表上,由於每天會生成大量的日誌,導致數據表的內容巨大,在查詢時進行全表

原创 Hadoop生態圈技術概述

本文對hadoop生態圈技術做一個概要的介紹,文章中的前半部分的信息大多來自於網絡,這裏只是按照自己的學習思路整理了下。包括如下內容: hadoop誕生記 hadoop生態圈 常見組件簡介 組件下載 學習路線 一、hadoop誕生記 最早

原创 Hadoop分塊與分片介紹及分片和分塊大小相同的原因

概念介紹 分塊 在HDFS系統中,爲了便於文件的管理和備份,引入分塊概念(block)。這裏的 塊 是HDFS存儲系統當中的最小單位,HDFS默認定義一個塊的大小爲64MB。當有文件上傳到HDFS上時,若文件大小大於設置的塊大小,則該文件

原创 scala---stripMargin

問題描述:     在Scala代碼塊中如何創建多行字符串,是否存在類似其他語言的“定界符”語法? 解決方法:     要在Scala中創建多行字符串,就需要了解Scala的Multiline String。在Scala中,利用三個雙引號

原创 寬依賴和窄依賴

寬依賴與窄依賴 窄依賴是指父RDD的每個分區只被子RDD的一個分區所使用,子RDD分區通常對應常數個父RDD分區(O(1),與數據規模無關) 相應的,寬依賴是指父RDD的每個分區都可能被多個子RDD分區所使用,子RDD分區通常對應所有的父

原创 Hive學習筆記之-使用Sqoop把Oracle表導入Hive

安裝環境: Hive: hive-0.11.0 Hadoop: Hadoop 1.2.1 Sqoop: sqoop-1.4.4.bin__hadoop-1.0.0 Oralce driver: ojdbc6.jar   軟件下載: Hiv

原创 hive優化總結

原文:https://blog.csdn.net/preterhuman_peak/article/details/40649213  長期觀察hadoop處理數據的過程,有幾個顯著的特徵: 1.不怕數據多,就怕數據傾斜。 2.對jobs

原创 Hive總結篇及Hive的優化

概述 Hive學習也有一段時間了,今天來對Hive進行一個總結,談談自己的理解,作者還是個小白,有不對的地方請大家指出相互學習,共同進步。今天來談一談什麼是Hive,產生背景,優勢等一系列問題。 什麼是Hive 老規矩:官網地址  Hiv

原创 scala和maven整合

1.scala和maven如何整合     網上有一堆教程講idea如何new module或new project一步一步來創建scala工程,在這裏我不推薦這個。原因是現在主流的開發環境,大多數是採用maven來構建項目的,所以建議大

原创 hadoop解決小文件思路

1.什麼是小文件 小文件一般是指明顯小於Hadoop的block size的文件。Hadoop的block size一般是64MB,128MB或者256MB,現在一般趨向於設置的越來越大。後文要討論的內容會基於128MB,這也是CDH中的

原创 數據倉庫-拉鍊操作

定義: 拉鍊表 - 維護歷史狀態,以及最新狀態數據的一種表,拉鍊表根據拉鍊粒度的不同,實際上相當於快照,只不過做了優化,去除了一部分不變的記錄而已,通過拉鍊表可以很方便的還原出拉鍊時點的客戶記錄。 拉鍊表通常是對賬戶信息的歷史變動進行處理

原创 累加器(Accumulator)

public class AccumulatorDemo { public static void main(String[]args){ System.setProperty("hadoop.home.dir"

原创 flume收集數據到kafka

a1.sources = s1 a1.channels=c1 a1.sinks=k1 a1.sources.s1.type =spooldir a1.sources.s1.channels=c1 a1.sources.s1.spoo

原创 sparkstreaming--updateStateByKey

//updateStateByKey狀態一直持續,即累加之前所有的RDD的結果 object WordCountUpdateStateByKey { def main(args: Array[String]): Unit = {

原创 sparkstreaming--window把多個批次中RDD合併成一個RDD

object WordCountWindows { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "E:\\so