原创 Spark streaming中的容錯

如果executor故障,所有未被處理的數據都會丟失,解決辦法可以通過wal(hbase,hdfs/WALs)方式     將數據預先寫入到hdfs或者s3.     如果Driver故障,driver程序就會停止,所有executor都

原创 Spark 集羣

Spark集羣部署模式     1.local     2.standalone     3.mesos     4.yarn Spark閉包處理       分區列表,function,dep Option(分區類, Pair[Key,

原创 Spark master HA 高可用模式

standalone和mesos集羣部署情況:      使用zk連接多個mast er並存儲state(只對standalone和mesos有用),master主要負責調度。 [配置]   [spark/conf/spark-env.

原创 Sqoop 1.4.7安裝與配置

sqoop 安裝 1下載 下載地址:http://www.apache.org/dyn/closer.lua/sqoop/1.4.7 2.解壓 tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

原创 Sqoop 安裝

sqoop:        RDBMS和hdfs之間進行數據的export/import,工具 Sqoop 安裝 1.下載      下載地址:https://mirrors.tuna.tsinghua.edu.cn/apache/sq

原创 Kafka 集羣啓動、停止腳本

1.配置ssh免密碼登錄。        參考鏈接:https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本 創建啓動腳本文件:start-kafkas.sh

原创 Spark 分佈式SQL引擎,ThriftServer

1.準備:         分發        [/soft/hadoop/etc/hadoop/]         core-site.xml            hdfs-site.xml [/soft/hive/conf/

原创 Spark Streaming Dstream Receiver

1.介紹         是spark core的擴展,針對實時數據流處理,具有可擴展、高吞吐量、容錯.         數據可以是來自於kafka,flume,tcpsocket,使用高級函數(map reduce filter ,jo

原创 Zookeeper 集羣啓動、停止腳本

1.配置ssh免密碼登錄。        參考鏈接:https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本  創建啓動腳本文件:start-zkserver

原创 Spark 整合hive

    1.hive的類庫需要在spark worker節點。         默認spark中包含了hive類庫     2.複製core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site

原创 Spark Streaming 集成kafka

1.啓動kafka集羣 2.引入依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark

原创 Spark JDBC操作mysql

package com.mao.scala.java; import org.apache.spark.SparkConf; import org.apache.spark.sql.*; import java.util.Prope

原创 Spark RDD持久化

spark上下文 package com.mao.scala import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main

原创 Spark SQL

    Hive            //hadoop mr sql     pheonix            //hbase之上構建sql交互過程     該模塊能在spark運行sql語句。     DataFrame     

原创 Spark API

[SparkContext]         連接到spark集羣,入口點.     [HadoopRDD]         讀取hadoop上的數據,     [MapPartitionsRDD]         針對父RDD的每個分區