原创 Spark RDD

RDD : Resilient Distributed Dataset,彈性分佈式數據集     是spark的基本數據結構,是不可變數據集。RDD中的數據集進行邏輯分區,每個分區可以單獨在集羣節點進行計算。可以包含任何java,scal

原创 Spark 集成hadoop ha

spark集成hadoop ha 1.複製core-site.xml + hdfs-site.xml到spark/conf目錄下 2.分發文件到spark所有work節點 3.啓動spark集羣 4.啓動spark-shell,連接spa

原创 Spark scala 文件編譯後找不到問題

在Pom文件中添加如下插件解決: <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <

原创 Spark 集羣模式

Spark 集羣搭建         a)複製spark目錄到其他主機         b)配置其他主機的所有環境變量             [/etc/profile]             SPARK_HOME          

原创 Spark 實現word count

API     [SparkContext]         Spark程序的入口點,封裝了整個spark運行環境的信息。         代表到Spark集羣的連接,可以創建RDD、累加器和廣播變量.         每個JVM只能激活

原创 Spark 腳本分析

[start-all.sh]         sbin/spark-config.sh         sbin/spark-master.sh        //啓動master進程         sbin/spark-slaves.

原创 Scala 學習筆記

scala:java語言的腳本化 REPL :read + evaluate + print + loop  //讀   求值  打印  循環 val                 //常量 var                 //

原创 Spark 安裝

Spark:Lightning-fast cluster computing。     快如閃電的集羣計算。     大規模快速通用的計算引擎。     速度:    比hadoop 100x,磁盤計算快10x     使用:    ja

原创 Storm 分組

1.shuffle :隨機分組 2.field分組         安裝指定filed的key進行hash處理,         相同的field,一定進入到同一bolt.      該分組容易產生數據傾斜問題,通過使用二次聚合避免此類問

原创 Storm 修改log輸出

storm-core-1.3.jar下 [main/resources目錄下] <configuration monitorInterval="60"> <Appenders> <Console name="Console"

原创 Storm 整合Kafka、Hbase

通過storm將kafka生產者發送的消息保存到Hbase pom依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM

原创 Storm 自定義分組

自定義CustomStreamGrouping類 package com.mao.storm.group.custom; import org.apache.storm.generated.GlobalStreamId; import

原创 Storm all 分組

all分組         使用廣播分組。         builder.setBolt("split-bolt", new SplitBolt(),2).allGrouping("wcspout").setNumTasks(2);

原创 Storm 確保消息被完成處理

storm確保消息如何被完成處理 1.發送的tuple需要攜帶msgId         collector.emit(new Values(line),index); 2.bolt中需要對tuple進行確認(ack() | fail()

原创 Storm 整合Kafka

storm以消費者從kafka隊列中提取消息 1.添加storm-kafka依賴項 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.o