原创 Flume 將 本地文件 通過 idea 進行wordcount

1.  安裝flume到Linux,配置環境 命令:vim /etc/profile, 添加: 2.  編輯flume的conf下的flume-env.sh.tempalte,更名爲flume-env.sh,並修改如下紅框內容,添加你的

原创 idea 報錯 org.springframework.beans.factory.UnsatisfiedDependencyException:

坑! 以下是報錯內容:  Error creating bean with name 'loginUsersService': Unsatisfied dependency expressed through field 'loginUs

原创 idea mvn install報錯Failed to execute goal org.apache.maven.plugins:maven-surefire-plugin:2.12.4:test

解決方法: 方法一: 在命令行中 1 mvn clean package -Dmaven.test.skip=true 方法二: 寫入pom文件,注意父子級節點結構 <plugin> <groupId>org.apac

原创 idea開發spark環境搭建 以及第一個wordcount程序

開發環境爲 windows10端 和 centOS6.5端 一:windows端環境設置 1.JAVA環境配置: 下載並安裝javaJDK1.8.0 配置java環境變量: 檢查Java環境配置是否成功 2.安裝scala2.1

原创 spark-GraphX 圖像的聚合操作aggregate (計算圖中各節點到根節點的最遠距離)

import org.apache.spark.graphx.{Edge, EdgeContext, Graph, VertexRDD} import org.apache.spark.{SparkConf, SparkContext}

原创 sparkGraphX 圖像的聚合操作 aggreagte (統計各頂點的出入度,統計粉絲平均年齡)

1.統計各頂點的出入度: import org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD} import org.apache.spark.rdd.RDD import

原创 DAY1

大數據概念:大數據的定義是 以超出常規手段收穫的大量數據集,特點是具有多樣性,準確性強,增長速度快,價值密度低,體量大。大數據的結構類型分三種,一種是結構化數據類型,一種是半結構化數據類型,另一種是非結構化數據類型。其中,半結構化數據類型