原创 數據倉庫 --拉鍊表技術介紹

拉鍊表: 維護歷史狀態,以及最新狀態數據的一種表,拉鍊表根據拉鍊粒度的不同,實際上相當於快照,只不過做了優化,去除了一部分不變的記錄,通過拉鍊表可以很方便的還原出拉鍊時點的客戶記錄。 數據倉庫的數據模型設計過程中,經常會遇到這樣的需求:

原创 kettle -- 連接hive讀取數據導入hdfs

  1.環境準備 1.進入kettle安裝文件目錄的data-integration\plugins\pentaho-big-data-plugin,修改plugin.properties文件 根據自己的hadoop版本添加不同的類型

原创 kettle -- 連接hdfs 的轉換 HDFS –Excel json -HDFS

HDFS –Excel  需求:將hdfs上的文件轉爲Excel文件 1.創建步驟 2.連接hdfs 3.設置hdfs輸入 4.設置Excel輸出,運行   json--HDFS   需求:將json上傳到HDFS 1.創建步驟,

原创 kettle --入門安裝測試

Kettle簡介  ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對於企業或行業應用來說,我們經常會遇到各種數據的處理,轉換,遷移,所以瞭解並掌握一種etl工具的使用,必不可少。kettle是

原创 Kettle --實操類型 csv轉excel json轉excel mysql轉excel 生成數據輸出爲Excel 刪除mysql表中指定id的數據

Test1 csv-excel 需求:把數據從CSV文件抽取到Excel文件 設置CSV輸入步驟 設置Excel輸出步驟 啓動保存運行   Test2 json-excel 需求:把數據從json文件抽取到Excel文件(具體步驟

原创 Spark -- StructuredStreaming第三章 與其他技術整合 kafka 生產數據寫入MySQL表

整合Kafka 官網介紹 http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html ●Creating a Kafka Source

原创 spark -- Spark原理初探

基本概念 http://spark.apache.org/docs/latest/cluster-overview.html ●名詞解釋 1.Application:指的是用戶編寫的Spark應用程序/代碼,包含了Driver功能代

原创 spark -- RDD-API (創建RDD RDD的方法/算子分類 Transformation轉換算子 Action動作算子 統計操作 )

 創建RDD 1.由外部存儲系統的數據集創建,包括本地的文件系統,還有所有Hadoop支持的數據集,比如HDFS、Cassandra、HBase等 val rdd1 = sc.textFile("hdfs://node01:8020/wo

原创 Spark -- spark on kafka Receiver & Direct Kafka手動維護偏移量

kafka回顧!!!上圖完事! 常用命令 #啓動kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/ser

原创 spark -- RDD的持久化/緩存

RDD的持久化/緩存 在實際開發中某些RDD的計算或轉換可能會比較耗費時間,如果這些RDD後續還會頻繁的被使用到,那麼可以將這些RDD進行持久化/緩存,這樣下次再使用到的時候就不用再重新計算了,提高了程序運行的效率 持久化/緩存API詳解

原创 saprk -- 開窗函數

基礎概念 ●介紹 開窗函數的引入是爲了既顯示聚集前的數據,又顯示聚集後的數據。即在每一行的最後一列添加聚合函數的結果。 開窗用於爲行定義一個窗口(這裏的窗口是指運算將要操作的行的集合),它對一組值進行操作,不需要使用 GROUP BY 子

原创 Spark -- Structured Streaming入門介紹

介紹 ●官網 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html ●簡介 spark在2.0版本中發佈了新的流計算的API,Str

原创 Spark -- Spark SQL 簡介 數據抽象

Spark SQL 簡介   Spark SQL官方介紹 ●官網 http://spark.apache.org/sql/ Spark SQL是Spark用來處理結構化數據的一個模塊。 Spark SQL還提供了多種使用方式,包括Dat

原创 spark --RDD寬窄依賴關係

寬窄依賴 ●兩種依賴關係類型 RDD和它依賴的父RDD的關係有兩種不同的類型,即 寬依賴(wide dependency/shuffle dependency) 窄依賴(narrow dependency) ●圖解   ●如何區分寬窄

原创 spark -- 第八章 RDD累加器和廣播變量

RDD累加器和廣播變量 在默認情況下,當Spark在集羣的多個不同節點的多個任務上並行運行一個函數時,它會把函數中涉及到的每個變量,在每個任務上都生成一個副本。但是,有時候需要在多個任務之間共享變量,或者在任務(Task)和任務控制節點(