台部落kismetG

拉鍊表：維護歷史狀態，以及最新狀態數據的一種表，拉鍊表根據拉鍊粒度的不同，實際上相當於快照，只不過做了優化，去除了一部分不變的記錄，通過拉鍊表可以很方便的還原出拉鍊時點的客戶記錄。數據倉庫的數據模型設計過程中，經常會遇到這樣的需求：

2020-05-13 21:49:36

1.環境準備 1.進入kettle安裝文件目錄的data-integration\plugins\pentaho-big-data-plugin，修改plugin.properties文件根據自己的hadoop版本添加不同的類型

2020-04-25 14:16:48

HDFS –Excel 需求：將hdfs上的文件轉爲Excel文件 1.創建步驟 2.連接hdfs 3.設置hdfs輸入 4.設置Excel輸出，運行 json--HDFS 需求：將json上傳到HDFS 1.創建步驟，

2020-04-25 14:16:48

Kettle簡介 ETL（Extract-Transform-Load的縮寫，即數據抽取、轉換、裝載的過程），對於企業或行業應用來說，我們經常會遇到各種數據的處理，轉換，遷移，所以瞭解並掌握一種etl工具的使用，必不可少。kettle是

2020-04-25 14:16:48

Test1 csv-excel 需求：把數據從CSV文件抽取到Excel文件設置CSV輸入步驟設置Excel輸出步驟啓動保存運行 Test2 json-excel 需求：把數據從json文件抽取到Excel文件（具體步驟

2020-04-25 14:16:48

整合Kafka 官網介紹 http://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html ●Creating a Kafka Source

2020-04-21 08:57:24

基本概念 http://spark.apache.org/docs/latest/cluster-overview.html ●名詞解釋 1.Application：指的是用戶編寫的Spark應用程序/代碼，包含了Driver功能代

2020-04-21 08:57:24

創建RDD 1.由外部存儲系統的數據集創建，包括本地的文件系統，還有所有Hadoop支持的數據集，比如HDFS、Cassandra、HBase等 val rdd1 = sc.textFile("hdfs://node01:8020/wo

2020-04-21 08:57:24

kafka回顧！！！上圖完事！常用命令 #啓動kafka /export/servers/kafka/bin/kafka-server-start.sh -daemon /export/servers/kafka/config/ser

2020-04-21 08:57:24

RDD的持久化/緩存在實際開發中某些RDD的計算或轉換可能會比較耗費時間，如果這些RDD後續還會頻繁的被使用到，那麼可以將這些RDD進行持久化/緩存，這樣下次再使用到的時候就不用再重新計算了，提高了程序運行的效率持久化/緩存API詳解

2020-04-21 08:57:24

基礎概念 ●介紹開窗函數的引入是爲了既顯示聚集前的數據，又顯示聚集後的數據。即在每一行的最後一列添加聚合函數的結果。開窗用於爲行定義一個窗口(這裏的窗口是指運算將要操作的行的集合)，它對一組值進行操作，不需要使用 GROUP BY 子

2020-04-21 08:57:24

介紹 ●官網 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html ●簡介 spark在2.0版本中發佈了新的流計算的API，Str

2020-04-21 08:57:24

Spark SQL 簡介 Spark SQL官方介紹 ●官網 http://spark.apache.org/sql/ Spark SQL是Spark用來處理結構化數據的一個模塊。 Spark SQL還提供了多種使用方式，包括Dat

2020-04-21 08:57:24

寬窄依賴 ●兩種依賴關係類型 RDD和它依賴的父RDD的關係有兩種不同的類型，即寬依賴(wide dependency/shuffle dependency) 窄依賴(narrow dependency) ●圖解 ●如何區分寬窄

2020-04-21 08:57:24

RDD累加器和廣播變量在默認情況下，當Spark在集羣的多個不同節點的多個任務上並行運行一個函數時，它會把函數中涉及到的每個變量，在每個任務上都生成一個副本。但是，有時候需要在多個任務之間共享變量，或者在任務(Task)和任務控制節點(

2020-04-21 08:57:24