台部落一只小菜鸟(*￣︶￣)

RDD : Resilient Distributed Dataset,彈性分佈式數據集是spark的基本數據結構，是不可變數據集。RDD中的數據集進行邏輯分區，每個分區可以單獨在集羣節點進行計算。可以包含任何java,scal

2019-05-01 01:07:59

spark集成hadoop ha 1.複製core-site.xml + hdfs-site.xml到spark/conf目錄下 2.分發文件到spark所有work節點 3.啓動spark集羣 4.啓動spark-shell,連接spa

2019-05-01 01:07:59

在Pom文件中添加如下插件解決： <build> <sourceDirectory>src/main/java</sourceDirectory> <plugins> <

2019-05-01 01:07:59

Spark 集羣搭建 a)複製spark目錄到其他主機 b)配置其他主機的所有環境變量 [/etc/profile] SPARK_HOME

2019-04-29 16:36:09

API [SparkContext] Spark程序的入口點，封裝了整個spark運行環境的信息。代表到Spark集羣的連接，可以創建RDD、累加器和廣播變量. 每個JVM只能激活

2019-04-29 16:36:09

[start-all.sh] sbin/spark-config.sh sbin/spark-master.sh //啓動master進程 sbin/spark-slaves.

2019-04-29 16:36:09

scala：java語言的腳本化 REPL ：read + evaluate + print + loop //讀求值打印循環 val //常量 var //

2019-04-29 16:36:09

Spark：Lightning-fast cluster computing。快如閃電的集羣計算。大規模快速通用的計算引擎。速度: 比hadoop 100x,磁盤計算快10x 使用: ja

2019-04-29 16:36:09

1.shuffle ：隨機分組 2.field分組安裝指定filed的key進行hash處理，相同的field，一定進入到同一bolt. 該分組容易產生數據傾斜問題，通過使用二次聚合避免此類問

2019-04-28 15:48:17

storm-core-1.3.jar下 [main/resources目錄下] <configuration monitorInterval="60"> <Appenders> <Console name="Console"

2019-04-28 15:48:17

2