原创 Spark深入解析(十九):SparkSQL之Spark SQL概述

目錄Spark SQL官方介紹什麼是Spark SQLSpark SQL的特點Spark SQL的優缺點Hive和Spark SQLSpark SQL數據抽象什麼是 DataFrame什麼是 DataSetRDD、DataFram

原创 Spark深入解析(十七):SparkCore之RDD編程進階

目錄累加器系統累加器自定義累加器廣播變量(調優策略) 累加器   累加器用來對信息進行聚合,通常在向 Spark傳遞函數時,比如使用 map() 函數或者用 filter() 傳條件時,可以使用驅動器程序中定義的變量,但是集羣中運

原创 Spark深入解析(十八):SparkCore之擴展之RDD相關概念關係

目錄RDD相關概念關係 RDD相關概念關係   輸入可能以多個文件的形式存儲在HDFS上,每個File都包含了很多塊,稱爲Block。當Spark讀取這些文件作爲輸入時,會根據具體數據格式對應的InputFormat進行解析,

原创 Spark深入解析:博文大綱

目錄一、Spark基礎解析二、SparkScore三、SparkSql四、SparkStreaming五、StructuredStreaming 一、Spark基礎解析 Spark深入解析(一):Spark基礎解析之Spark的前

原创 Spark深入解析(十五):鍵值對RDD數據分區器

目錄獲取RDD分區Hash分區Ranger分區自定義分區   Spark目前支持Hash分區和Range分區,用戶也可以自定義分區,Hash分區爲當前的默認分區,Spark中分區器直接決定了RDD中分區的個數、RDD中每條數據經過

原创 Spark深入解析(十四):RDD的持久化/緩存、容錯機制Checkpoint

目錄RDD的持久化/緩存持久化/緩存API詳解代碼演示RDD的容錯機制Checkpoint代碼演示持久化和Checkpoint的區別 RDD的持久化/緩存   在實際開發中某些RDD的計算或轉換可能會比較耗費時間,如果這些RDD後

原创 Spark深入解析(十六):數據讀取與保存

目錄文件類數據讀取與保存Text文件Json文件Sequence文件對象文件文件系統類數據讀取與保存HDFSMySQL數據庫連接HBase數據庫   Spark的數據讀取及數據保存可以從兩個維度來作區分:文件格式以及文件系統。 文

原创 Spark深入解析(十三): RDD依賴關係、DAG生成、劃分Stage

目錄Lineage寬窄依賴如何區分寬窄依賴爲什麼要設計寬窄依賴DAG(有向無環圖)DAG劃分Stage Lineage   RDD只支持粗粒度轉換,即在大量記錄上執行的單個操作。將創建RDD的一系列Lineage(血統)記錄下來,

原创 Spark深入解析(十二):RDD中的函數傳遞

目錄傳遞一個方法傳遞一個屬性   在實際開發中我們往往需要自己定義一些對於RDD的操作,那麼此時需要主要的是,初始化工作是在Driver端進行的,而實際運行程序是在Executor端進行的,這就涉及到了跨進程通信,是需要序列化的。

原创 Spark深入解析(十一):RDD的轉換之Action動作算子

目錄reduce(func)案例collect()案例count()案例first()案例take(n)案例takeOrdered(n)案例aggregate案例fold(num)(func)案例saveAsTextFile(pa

原创 Spark深入解析(八):RDD的轉換-Value類型

目錄map(func)案例mapPartitions(func) 案例mapPartitionsWithIndex(func) 案例flatMap(func) 案例==map()和mapPartition()的區別==glom案例

原创 Spark深入解析(十):RDD的轉換之Key-Value類型

目錄partitionBy案例groupByKey案例reduceByKey(func, [numTasks]) 案例==reduceByKey和groupByKey的區別==aggregateByKey案例foldByKey案例

原创 Spark深入解析(九):RDD的轉換-雙Value類型

目錄union(otherDataset) 案例subtract (otherDataset) 案例intersection(otherDataset) 案例cartesian(otherDataset) 案例zip(otherD

原创 Redis學習(一):初識Redis

學習目標NoSQL數據庫NoSQL適用場景NoSQL不適用場景NoSQL數據庫舉例Redis特點 NoSQL數據庫 Redis是一個基於內存使用C語言編寫的key-value開源的NOSQL存儲系統。(區別於MySQL的二維表格的

原创 大數據面試題(十)----Zookeeper 面試題

版權聲明:本文爲CSDN博主「北京小輝」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。 原文鏈接:https://blog.csdn.net/silentwolfyh/article/det