原创 大數據學習之路(準備篇)---------(五)Redis cluster集羣搭建並進行壓力測試

上一節,我們已經搭建好了HIVE,這一節我們來搭建Redis cluster集羣吧,現在都是環境搭建,後續的我們有了實際數據後會在這個集羣上來進行數據分析,讓我們一步一步的向錢推進吧?! redis5.0.2集羣搭建(兩臺服務器6

原创 大數據小試牛刀---------(一)配置Hiveserver2,並編寫Spring boot集成hive-jdbc程序(結尾附源碼)

hiveserver2的配置和啓動 在之前的講解中,我們已經安裝好啦Hive,那麼這次我們來配置好hiveserver2進行實際項目中操作Hive吧。 Hive安裝地址:Hive 安裝教程 配置hive-site.xml 進入h

原创 特定區域人口變化模型(Scala+Hive)

特定區域人口變化模型(Scala+Hive) 今天來寫一個新的模型,遇到一個問題。比如我想統計該數據源下一天內按時間分段求和,怎麼用SQL來搞定呢。之前也找過scala和java下的時間處理工具類,還是不如SQL來的方便。今天特此

原创 Scala學習——Scala方法與函數總結

Scala方法的定義 有參方法、無參方法 def fun (a: Int , b: Int ) : Unit = { println(a+b) } fun(1,1) def fun1 (a : Int , b :

原创 Spark學習總結——SparkSQL、DataFrame詳解代碼示例

Shark 概念: Shark是基於Spark計算框架之上且兼容Hive語法的SQL執行引擎,由於底層的計算採用了Spark,性能比MapReduce的Hive普遍快2倍以上,當數據全部load在內存的話,將快10倍以上,因此S

原创 Spark學習總結——廣播變量和累加器、內存管理、Shuffle調優

廣播變量和累加器 廣播變量 廣播變量理解圖 廣播變量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = ne

原创 Scala學習——介紹,安裝,idea安裝使用。

Scala介紹 Spark1.6中使用的是Scala2.10。Spark2.0版本以上使用是Scala2.11版本。 Scala官網6個特徵。 1).Java和scala可以混編 2).類型推測(自動推測類型) 3).併發和分佈

原创 Scala學習——Scala字符串、集合、數組、元組、trait、match、隱式轉換等使用方法

Scala字符串 String StringBuilder 可變 string操作方法舉例 比較:equals 比較忽略大小寫:equalsIgnoreCase indexOf:如果字符串中有傳入的assci碼對應的值,返回下標

原创 Spark學習總結——SparkCore、任務執行原理、算子

Spark初始 什麼是Spark Apache Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源

原创 Scala學習——基礎知識總結(數據類型、類、對象)

Scala基礎 數據類型 變量和常量的聲明. /**定義變量和常量,變量 :用 var 定義 ,可修改 常量 :用 val 定義,不可修改 */ var name = "zhangsan"

原创 Spark學習總結——Yarn和Standalone提交任務方式、資源調度和任務調度流程

Spark下Standalone和Yarn提交流程詳解 Yarn模式兩種提交任務方式 yarn-client提交任務方式 提交命令 ./spark-submit --master yarn --class org.apac

原创 Spark學習總結——補充算子、資源調度源碼分析、任務調度源碼分析、提交參數詳解

補充算子 transformations mapPartitionWithIndex 類似於mapPartitions,除此之外還會攜帶分區的索引值。 repartition 增加或減少分區。會產生shuffle。(多個分區分到