台部落一只小菜鸟(*￣︶￣)

如果executor故障，所有未被處理的數據都會丟失，解決辦法可以通過wal(hbase,hdfs/WALs)方式將數據預先寫入到hdfs或者s3. 如果Driver故障，driver程序就會停止，所有executor都

2019-05-07 22:49:13

Spark集羣部署模式 1.local 2.standalone 3.mesos 4.yarn Spark閉包處理分區列表,function,dep Option(分區類, Pair[Key,

2019-05-07 22:49:03

standalone和mesos集羣部署情況：使用zk連接多個mast er並存儲state（只對standalone和mesos有用），master主要負責調度。 [配置] [spark/conf/spark-env.

2019-05-07 22:49:03

sqoop 安裝 1下載下載地址：http://www.apache.org/dyn/closer.lua/sqoop/1.4.7 2.解壓 tar -xzvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

2019-05-06 11:36:54

sqoop: RDBMS和hdfs之間進行數據的export/import,工具 Sqoop 安裝 1.下載下載地址：https://mirrors.tuna.tsinghua.edu.cn/apache/sq

2019-05-05 19:25:37

11

1.配置ssh免密碼登錄。參考鏈接：https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本創建啓動腳本文件：start-kafkas.sh

2019-05-04 17:35:09

1.準備：分發 [/soft/hadoop/etc/hadoop/] core-site.xml hdfs-site.xml [/soft/hive/conf/

2019-05-04 17:35:09

1.介紹是spark core的擴展，針對實時數據流處理,具有可擴展、高吞吐量、容錯. 數據可以是來自於kafka,flume,tcpsocket,使用高級函數(map reduce filter ,jo

2019-05-04 17:35:09

1.配置ssh免密碼登錄。參考鏈接：https://blog.csdn.net/mao502010435/article/details/86573589 2.編寫啓動腳本創建啓動腳本文件：start-zkserver

2019-05-04 17:35:09

1.hive的類庫需要在spark worker節點。默認spark中包含了hive類庫 2.複製core-site.xml(hdfs) + hdfs-site.xml(hdfs) + hive-site

2019-05-04 17:35:09

1.啓動kafka集羣 2.引入依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark

2019-05-04 17:35:09

package com.mao.scala.java; import org.apache.spark.SparkConf; import org.apache.spark.sql.*; import java.util.Prope

2019-05-04 17:35:09

spark上下文 package com.mao.scala import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main

2019-05-04 07:27:33

Hive //hadoop mr sql pheonix //hbase之上構建sql交互過程該模塊能在spark運行sql語句。 DataFrame

2019-05-04 07:27:33

[SparkContext] 連接到spark集羣,入口點. [HadoopRDD] 讀取hadoop上的數據， [MapPartitionsRDD] 針對父RDD的每個分區

2019-05-03 16:33:39