原创 Spark RDD
RDD : Resilient Distributed Dataset,彈性分佈式數據集 是spark的基本數據結構,是不可變數據集。RDD中的數據集進行邏輯分區,每個分區可以單獨在集羣節點進行計算。可以包含任何java,scal
原创 Spark 集成hadoop ha
spark集成hadoop ha 1.複製core-site.xml + hdfs-site.xml到spark/conf目錄下 2.分發文件到spark所有work節點 3.啓動spark集羣 4.啓動spark-shell,連接spa
原创 Spark scala 文件編譯後找不到問題
在Pom文件中添加如下插件解決: <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <
原创 Spark 集羣模式
Spark 集羣搭建 a)複製spark目錄到其他主機 b)配置其他主機的所有環境變量 [/etc/profile] SPARK_HOME
原创 Spark 實現word count
API [SparkContext] Spark程序的入口點,封裝了整個spark運行環境的信息。 代表到Spark集羣的連接,可以創建RDD、累加器和廣播變量. 每個JVM只能激活
原创 Spark 腳本分析
[start-all.sh] sbin/spark-config.sh sbin/spark-master.sh //啓動master進程 sbin/spark-slaves.
原创 Scala 學習筆記
scala:java語言的腳本化 REPL :read + evaluate + print + loop //讀 求值 打印 循環 val //常量 var //
原创 Spark 安裝
Spark:Lightning-fast cluster computing。 快如閃電的集羣計算。 大規模快速通用的計算引擎。 速度: 比hadoop 100x,磁盤計算快10x 使用: ja
原创 Storm 分組
1.shuffle :隨機分組 2.field分組 安裝指定filed的key進行hash處理, 相同的field,一定進入到同一bolt. 該分組容易產生數據傾斜問題,通過使用二次聚合避免此類問
原创 Storm 修改log輸出
storm-core-1.3.jar下 [main/resources目錄下] <configuration monitorInterval="60"> <Appenders> <Console name="Console"
原创 Storm 整合Kafka、Hbase
通過storm將kafka生產者發送的消息保存到Hbase pom依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM
原创 Storm 自定義分組
自定義CustomStreamGrouping類 package com.mao.storm.group.custom; import org.apache.storm.generated.GlobalStreamId; import
原创 Storm all 分組
all分組 使用廣播分組。 builder.setBolt("split-bolt", new SplitBolt(),2).allGrouping("wcspout").setNumTasks(2);
原创 Storm 確保消息被完成處理
storm確保消息如何被完成處理 1.發送的tuple需要攜帶msgId collector.emit(new Values(line),index); 2.bolt中需要對tuple進行確認(ack() | fail()
原创 Storm 整合Kafka
storm以消費者從kafka隊列中提取消息 1.添加storm-kafka依賴項 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.o