台部落wangfutai91

1，Hive分區。是指按照數據表的某列或某些列分爲多個區，區從形式上可以理解爲文件夾，比如我們要收集某個大型網站的日誌數據，一個網站每天的日誌數據存在同一張表上，由於每天會生成大量的日誌，導致數據表的內容巨大，在查詢時進行全表

2019-03-24 05:45:46

本文對hadoop生態圈技術做一個概要的介紹，文章中的前半部分的信息大多來自於網絡，這裏只是按照自己的學習思路整理了下。包括如下內容： hadoop誕生記 hadoop生態圈常見組件簡介組件下載學習路線一、hadoop誕生記最早

2019-03-24 05:45:46

概念介紹分塊在HDFS系統中，爲了便於文件的管理和備份，引入分塊概念（block）。這裏的塊是HDFS存儲系統當中的最小單位，HDFS默認定義一個塊的大小爲64MB。當有文件上傳到HDFS上時，若文件大小大於設置的塊大小，則該文件

2019-03-24 05:45:35

問題描述：在Scala代碼塊中如何創建多行字符串，是否存在類似其他語言的“定界符”語法？解決方法：要在Scala中創建多行字符串，就需要了解Scala的Multiline String。在Scala中，利用三個雙引號

2019-03-20 06:09:57

寬依賴與窄依賴窄依賴是指父RDD的每個分區只被子RDD的一個分區所使用，子RDD分區通常對應常數個父RDD分區(O(1)，與數據規模無關) 相應的，寬依賴是指父RDD的每個分區都可能被多個子RDD分區所使用，子RDD分區通常對應所有的父

2019-03-20 06:09:57

安裝環境： Hive: hive-0.11.0 Hadoop: Hadoop 1.2.1 Sqoop: sqoop-1.4.4.bin__hadoop-1.0.0 Oralce driver: ojdbc6.jar 軟件下載： Hiv

2019-03-15 05:27:25

原文：https://blog.csdn.net/preterhuman_peak/article/details/40649213 長期觀察hadoop處理數據的過程，有幾個顯著的特徵: 1.不怕數據多，就怕數據傾斜。 2．對jobs

2019-03-14 14:44:05

概述 Hive學習也有一段時間了，今天來對Hive進行一個總結，談談自己的理解，作者還是個小白，有不對的地方請大家指出相互學習，共同進步。今天來談一談什麼是Hive，產生背景，優勢等一系列問題。什麼是Hive 老規矩：官網地址 Hiv

2019-03-14 14:43:55

1.scala和maven如何整合網上有一堆教程講idea如何new module或new project一步一步來創建scala工程，在這裏我不推薦這個。原因是現在主流的開發環境，大多數是採用maven來構建項目的，所以建議大

2019-03-14 02:54:17

1.什麼是小文件小文件一般是指明顯小於Hadoop的block size的文件。Hadoop的block size一般是64MB，128MB或者256MB，現在一般趨向於設置的越來越大。後文要討論的內容會基於128MB，這也是CDH中的

2019-03-13 14:40:40

定義：拉鍊表 - 維護歷史狀態，以及最新狀態數據的一種表，拉鍊表根據拉鍊粒度的不同，實際上相當於快照，只不過做了優化，去除了一部分不變的記錄而已,通過拉鍊表可以很方便的還原出拉鍊時點的客戶記錄。拉鍊表通常是對賬戶信息的歷史變動進行處理

2019-03-13 01:59:23

public class AccumulatorDemo { public static void main(String[]args){ System.setProperty("hadoop.home.dir"

2019-03-09 13:01:16

a1.sources = s1 a1.channels=c1 a1.sinks=k1 a1.sources.s1.type =spooldir a1.sources.s1.channels=c1 a1.sources.s1.spoo

2019-03-06 18:16:07

//updateStateByKey狀態一直持續,即累加之前所有的RDD的結果 object WordCountUpdateStateByKey { def main(args: Array[String]): Unit = {

2019-03-06 18:16:07

object WordCountWindows { def main(args: Array[String]): Unit = { System.setProperty("hadoop.home.dir", "E:\\so

2019-03-06 18:16:07