原创 Spark streaming中的容錯
如果executor故障,所有未被處理的數據都會丟失,解決辦法可以通過wal(hbase,hdfs/WALs)方式 將數據預先寫入到hdfs或者s3. 如果Driver故障,driver程序就會停止,所有executor都
原创 Spark 集羣
Spark集羣部署模式 1.local 2.standalone 3.mesos 4.yarn Spark閉包處理 分區列表,function,dep Option(分區類, Pair[Key,
原创 Spark master HA 高可用模式
standalone和mesos集羣部署情況: 使用zk連接多個mast er並存儲state(只對standalone和mesos有用),master主要負責調度。 [配置] [spark/conf/spark-env.
原创 Sqoop 1.4.7安裝與配置
sqoop 安裝 1下載 下載地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.7 2.解壓 tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
原创 Sqoop 安裝
sqoop: RDBMS和hdfs之間進行數據的export/import,工具 Sqoop 安裝 1.下載 下載地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sq
原创 Kafka 集羣啓動、停止腳本
1.配置ssh免密碼登錄。 參考鏈接:https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本 創建啓動腳本文件:start-kafkas.sh
原创 Spark 分佈式SQL引擎,ThriftServer
1.準備: 分發 [/soft/hadoop/etc/hadoop/] core-site.xml hdfs-site.xml [/soft/hive/conf/
原创 Spark Streaming Dstream Receiver
1.介紹 是spark core的擴展,針對實時數據流處理,具有可擴展、高吞吐量、容錯. 數據可以是來自於kafka,flume,tcpsocket,使用高級函數(map reduce filter ,jo
原创 Zookeeper 集羣啓動、停止腳本
1.配置ssh免密碼登錄。 參考鏈接:https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本 創建啓動腳本文件:start-zkserver
原创 Spark 整合hive
1.hive的類庫需要在spark worker節點。 默認spark中包含了hive類庫 2.複製core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site
原创 Spark Streaming 集成kafka
1.啓動kafka集羣 2.引入依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark
原创 Spark JDBC操作mysql
package com.mao.scala.java; import org.apache.spark.SparkConf; import org.apache.spark.sql.*; import java.util.Prope
原创 Spark RDD持久化
spark上下文 package com.mao.scala import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main
原创 Spark SQL
Hive //hadoop mr sql pheonix //hbase之上構建sql交互過程 該模塊能在spark運行sql語句。 DataFrame
原创 Spark API
[SparkContext] 連接到spark集羣,入口點. [HadoopRDD] 讀取hadoop上的數據, [MapPartitionsRDD] 針對父RDD的每個分區