原创 【SparkCore】RDD的持久化與緩存(HDFS與內存磁盤)

目錄 內存或磁盤 介紹 持久化/緩存API詳解 代碼 存儲級別 總結 HDFS 介紹 代碼 總結 內存或磁盤 介紹 在實際開發中某些RDD的計算或轉換可能會比較耗費時間,如果這些RDD後續還會頻繁的被使用到,那麼可以將這些RDD進行持

原创 【SparkCore】RDD依賴關係與DAG

目錄 RDD依賴關係 介紹 如何區分寬窄依賴 寬窄依賴的作用 DAG 介紹 DAG的邊界 注意 DAG劃分Stage 總結 RDD依賴關係 介紹 RDD和它依賴的父RDD的關係有兩種不同的類型 1.寬依賴(wide dependenc

原创 【SparkSQL】SparkSQL與多數據源交互的操作

目錄 介紹 寫數據 讀數據 總結 介紹 Spark SQL可以與多種數據源交互,如普通文本、json、parquet、csv、MySQL等 1.寫入不同數據源 2.讀取不同數據源   寫數據 //創建SparkSession v

原创 【SparkSQL】使用IDEA開發Spark SQL程序

目錄 創建DataFrame/DataSet 指定列名添加Schema StructType指定Schema 反射推斷Schema 查詢 相互轉化(RDD  DataFrame DataSet) WordCount 創建DataFram

原创 【SparkCore】RDD累加器和廣播變量的介紹及其使用

目錄 介紹 累加器 廣播變量 介紹 在默認情況下,當Spark在集羣的多個不同節點的多個任務上並行運行一個函數時,它會把函數中涉及到的每個變量,在每個任務上都生成一個副本。但是,有時候需要在多個任務之間共享變量,或者在任務(Task)

原创 【SparkCore】RDD常用方法以及使用

目錄 創建RDD 1.由外部存儲系統的數據集創建,包括本地的文件系統,還有所有Hadoop支持的數據集,比如HDFS、Cassandra、HBase等 2.通過已有的RDD經過算子轉換生成新的RDD 3.由一個已經存在的Scala集合創建

原创 【數據倉庫】數據倉庫維度模型介紹與設計

目錄 維度建模基本概念 事實表 維度表 事實表與維度表總結 維度建模三種模式 數據倉庫分層好處 數倉分層思想 維度建模基本概念 維度模型是數據倉庫領域大師Ralph Kimall所倡導,他的《數據倉庫工具箱》,是數據倉庫工程領域最流行

原创 【SparkSQL】SparkSQL的基本介紹

目錄 介紹 特點 SQL優缺點 Hive和SparkSQL DataFrame DataSet RDD&DataFrame&DataSet的區別 介紹 Spark SQL是Spark用來處理結構化數據的一個模塊。 Spark SQL還

原创 【Spark Streaming】Spark Streaming原理與介紹

目錄 整體流程 數據抽象 總結 整體流程 Spark Streaming中,會有一個接收器組件Receiver,作爲一個長期運行的task跑在一個Executor上。Receiver接收外部的數據流形成input DStream  

原创 【SparkSQL】Spark SQL自定義函數的介紹及其使用

目錄 介紹 自定義UDF 自定義UDAF 介紹 類似於hive當中的自定義函數, spark同樣可以使用自定義函數來實現新的功能。spark中的自定義函數有如下3類 UDF(User-Defined-Function):輸入一行,輸出

原创 【SparkSQL】開窗函數的介紹及其使用

目錄 介紹  聚合開窗函數 排序開窗函數 代碼 介紹 開窗函數的引入是爲了既顯示聚集(或排序)前的數據,又顯示聚集(或排序)後的數據。即在每一行的最後一列添加聚合函數的結果。開窗用於爲行定義一個窗口(這裏的窗口是指運算將要操作的行的集

原创 【Kettle】邏輯轉化組件使用(值映射 增加序列 字段選擇)

值映射 值映射就是把字段的一個值映射成其他的值 在數據質量規範上使用非常多   需求 把json中的gender中的數據進行改變。0變爲男,1變爲女,2變爲保密   拖入一個 JSON輸入組件、一個值映射轉換組件、一個Excel輸出組件,

原创 【Kettle】整合Hive進行操作

前言 現在我們來講講kettle如何整合hive進行操作   準備環境 開啓hiveserver2服務 cd  /export/servers/hive-1.1.0-cdh5.14.0 nohup bin/hive --service

原创 【Kettle】流程控件的使用(switch 過濾記錄)

switch(流程控件) switch/case組件讓數據流從一路到多路。   需求: 從 user.json 輸入讀取數據,按sex進行數據分類, 把女性、男性分別保存不同的Excel文件裏 面。 0表示男性 1表示女性   拖入一個

原创 【Kettle】 Javascript腳本組件

介紹 1.Kettle中可以通過腳本完成一些複雜的操作 2.javascript腳本就是使用javascript語言通過代碼編程來完成對數據流的操作 3.JS中有很多內置函數,可以在編寫JS代碼時查看,存在兩種不同的模式不兼容模式和兼容模