原创 spark學習(五):shuffle以及內存管理機制

目錄 1. shuffle詳解 1.1 那麼到底什麼時shufffle? reduceByKey的含義? 問題: 如何聚合? 1.2 Shuffle分爲shuffle和sortShuffle 1.2.1 shuffle普通機制 1.2.2

原创 Scala學習第一天

數據類型: 非引用數據類型:父類型均爲AnyVal     七種數值類型Byte、Char、Short、Int、Long、Float 和 Double     非數值類型:Boolean、Unit 類型. 引用數據類型:父類型均爲AnyR

原创 Spark學習(二):RDD詳解

目錄 1.RDD詳解 1.1RDD的創建 1.2 transformation算子和action算子 1.3 RDD的寬依賴和窄依賴 2. Stage 2.1DAG的生成 2.2stage 1.RDD詳解 RDD的概念,注意事項已經在Sp

原创 scala中:: , +:, :+, :::, ++,++:的區別

scala中:: , +:, :+, :::, ++,++:的區別 (對兩個集合/數組的操作) ++    ++:    ::: 三個方法均爲拼接作用 ::: 方法只能用於集合 對於兩個序列(List)三個方法的效果是相同的   對於

原创 Scala學習第二天

數組的定義(內容均可變) 1.定長數組(默認情況) // 定義定長數組, 長度不可變, 內容可變 var x :Array[String] = new Array[String](3) // 或者 var y = new Array[S

原创 Hbase的架構及讀寫流程

Hbase:      是一個構建在Hdfs基礎之上的非關係型數據庫。**      是一個高可靠、高性能、面向列、可伸縮的分佈式存儲系統,目標是存儲並計算大型的數據,具體來說就是在非常普通的硬件配置,就能夠處理成千上萬的行和列組成的大型

原创 調整spark-sql控制檯日誌輸出級別

問題: 每次spark-sql操作都會打印大量的INFO信息,這樣我們查看結果就會很麻煩, 解決: 調整Spark日誌級別的配置文件是在$SPARK_HOME/conf/目錄下的log4j.properties.template,默認級別

原创 Spark學習總體概述

    1.什麼是Spark?與MR的區別?         Spark是開源的通用的計算框架,目的是爲了使數據分析更快。MR也是計算框架。         區別?             1).MR是基於磁盤迭代,Spark是基於內存迭

原创 spark學習(一):集羣的搭建

目錄 1.下載 2.上傳 3.解壓 4.修改配置文件 5.啓動spark集羣 6.Spark的四種部署模式 7.如何去提交spark任務 8.Spark的第一個程序 9.Spark編程(WordCount) Spark集羣的配置: 準備三

原创 Spark生態圈概述以及Hadoop生態圈的比較

目錄 1.Spark概述及特點 2.Spark產生背景 3.Spark與Hadoop的對比 4.Spark與Hadoop的協作性 1.Spark概述及特點 先看下官網的描述: http://spark.apache.org/  Spar

原创 Scala學習第四天-Scala高級語法

4.1 隱式(implicit)詳解 思考:我們調用別人的框架,發現少了一些方法,需要添加,但是讓別人爲你一個人添加是不可能滴。 比如使用 java.io.File 讀取文件非常的繁瑣,能不能讓 Oracle 公司給我們再添加一個 rea

原创 Spark學習(三):spark 的任務提交方式

目錄 1. Standalone模式兩種提交任務方式 1.1 Standalone-client提交任務方式 1.2 Standalone-cluster提交任務方式 1.3 Driver的功能 2. yarn模式兩種提交任務方式 2.1

原创 Scala學習第三天

面向對象 單例對象 在Scala 中,是沒有static 這個東西的,但是可以使用關鍵字object,使用object修飾的類是單例的,而且類中的方法/屬性都是static的。 在scala中被object關鍵字修飾的類有如下特徵: 是單