第56課：Spark SQL和DataFrame的本質

原創

lqding1980

2019-07-19 14:47

一、Spark SQL與Dataframe

Spark SQL之所以是除Spark core以外最大和最受關注的組件的原因：

a）能處理一切存儲介質和各種格式的數據（你同時可以方便的擴展Spark SQL的功能來支持更多的數據類型，例如KUDO）

b）Spark SQL 把數據倉庫的計算能力推向了一個新的高度。不僅是無敵的計算速度（Spark SQL比Shark快了一個數量級，Shark比Hive快了一個數量級），尤其是在tungsten成熟以後會更加無可匹敵。更爲重要的是把數據倉庫的計算複雜度推向了歷史新高度（Spark後續推出的Dataframe可以讓數據倉庫直接使用機器學習、圖計算等算法庫來對數據倉庫進行深度數據價值的挖掘）。

c）Spark SQL（Dataframe，DataSet）不僅是數據倉庫的引擎，同時也是數據挖掘的引擎，更爲重要的是Spark SQL是科學計算和分析的引擎。

d）後來的DataFrame讓Spark SQL一舉成爲大數據計算引擎的技術上的霸主（尤其是在鎢絲計劃的強力支持下）。

e) Hive+Spark SQL+DataFrame

1） Hive負責廉價的數據存儲

2) Spark SQL 負責高速的計算

3）DataFrame 負責複雜的數據挖掘

二、DataFrame與RDD

a）R和Python中都有DataFrame，Spark中的DataFrame從形式上看，最大的不同點就是其天生是分佈式的；你可以簡單的認爲DataFrame是一個分佈式的Table，形式如下：

Name	Age	Tel
String	Int	Long
String	Int	Long
String	Int	Long
String	Int	Long
String	Int	Long
String	Int	Long

而RDD的形式如下：

Person

RDD不知道數據行的屬性，而DataFrame知道數據的列信息

b）RDD和DataFrame的根本差異

RDD以record爲基本單位，Spark在處理RDD時無法優化RDD的內部細節，所以也就無法進行更深入的優化，這極大的限制了Spark SQL的性能。

DataFrame中包含了每個record的metadata信息，也就是說DataFrame優化時基於列內部優化，而不像RDD基於行進行優化。

三、Spark企業級最佳實踐

階段1 文件系統+C語言處理

階段2 JavaEE + 傳統數據庫（擴展性太差，不支持分佈式。即便有部分數據庫支持分佈式，但是因爲事務一致性的關係，速度非常慢）

階段3 Hive hive的計算能力有限，速度非常慢。

階段4 Hive轉向Hive+Spark SQL

階段5 Hive+Spark SQL+DataFrame

階段6 Hive+Spark SQL+DataFrame+DataSet

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

第56課：Spark SQL和DataFrame的本質

SQL優化-20231016

第35講：List的map、flatMap、foreach、filter操作代碼實戰

第42講：Scala中泛型類、泛型函數、泛型在Spark中的廣泛應用

第40講：Set、Map、TreeSet、TreeMap操作代碼實戰

第53課：Hive 第一課：Hive的價值、Hive的架構設計簡介

第36講：List的partition、find、takeWhile、dropWhile、span、forall、exsists操作代碼實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結