台部落jiezou12138

目錄 1. shuffle詳解 1.1 那麼到底什麼時shufffle？ reduceByKey的含義？問題：如何聚合？ 1.2 Shuffle分爲shuffle和sortShuffle 1.2.1 shuffle普通機制 1.2.2

2019-04-03 17:54:47

數據類型：非引用數據類型：父類型均爲AnyVal 七種數值類型Byte、Char、Short、Int、Long、Float 和 Double 非數值類型：Boolean、Unit 類型. 引用數據類型：父類型均爲AnyR

2019-04-01 17:55:50

目錄 1.RDD詳解 1.1RDD的創建 1.2 transformation算子和action算子 1.3 RDD的寬依賴和窄依賴 2. Stage 2.1DAG的生成 2.2stage 1.RDD詳解 RDD的概念，注意事項已經在Sp

2019-04-01 17:55:50

scala中:: , +:, :+, :::, ++,++:的區別（對兩個集合/數組的操作） ++ ++: ::: 三個方法均爲拼接作用 ::: 方法只能用於集合對於兩個序列（List）三個方法的效果是相同的對於

2019-04-01 17:55:50

數組的定義（內容均可變） 1.定長數組（默認情況） // 定義定長數組, 長度不可變, 內容可變 var x :Array[String] = new Array[String](3) // 或者 var y = new Array[S

2019-04-01 17:55:50

Hbase：是一個構建在Hdfs基礎之上的非關係型數據庫。** 是一個高可靠、高性能、面向列、可伸縮的分佈式存儲系統，目標是存儲並計算大型的數據，具體來說就是在非常普通的硬件配置，就能夠處理成千上萬的行和列組成的大型

2019-04-01 17:55:50

問題：每次spark-sql操作都會打印大量的INFO信息，這樣我們查看結果就會很麻煩，解決：調整Spark日誌級別的配置文件是在$SPARK_HOME/conf/目錄下的log4j.properties.template，默認級別

2019-04-01 17:55:50

1.什麼是Spark？與MR的區別？ Spark是開源的通用的計算框架，目的是爲了使數據分析更快。MR也是計算框架。區別？ 1).MR是基於磁盤迭代，Spark是基於內存迭

2019-04-01 17:55:50

目錄 1.下載 2.上傳 3.解壓 4.修改配置文件 5.啓動spark集羣 6.Spark的四種部署模式 7.如何去提交spark任務 8.Spark的第一個程序 9.Spark編程（WordCount） Spark集羣的配置：準備三

2019-04-01 17:55:50

目錄 1.Spark概述及特點 2.Spark產生背景 3.Spark與Hadoop的對比 4.Spark與Hadoop的協作性 1.Spark概述及特點先看下官網的描述： http://spark.apache.org/ Spar

2019-04-01 17:55:50

4.1 隱式（implicit）詳解思考：我們調用別人的框架，發現少了一些方法，需要添加，但是讓別人爲你一個人添加是不可能滴。比如使用 java.io.File 讀取文件非常的繁瑣，能不能讓 Oracle 公司給我們再添加一個 rea

2019-04-01 17:55:50

目錄 1. Standalone模式兩種提交任務方式 1.1 Standalone-client提交任務方式 1.2 Standalone-cluster提交任務方式 1.3 Driver的功能 2. yarn模式兩種提交任務方式 2.1

2019-04-01 17:55:50

面向對象單例對象在Scala 中，是沒有static 這個東西的，但是可以使用關鍵字object，使用object修飾的類是單例的，而且類中的方法/屬性都是static的。在scala中被object關鍵字修飾的類有如下特徵：是單

2019-04-01 17:55:50