台部落阿顾同学

一異常問題通過dbeaver連接phoenix的時候，會出現如下的兩種異常： Could not initialize class org.apache.hadoop.hbase.util.ClassSize Unexpect

2020-06-22 14:15:00

我們可以用toDebugString方法看看產生了幾個RDD val rdd = sc.textFile("file:///home/hadoop/data/wc.dat") rdd.toDebugString 從下圖中可以看出

2020-06-22 14:15:00

跑mapreduce任務只知道在在本地打成jar，提交到hadoop集羣上去跑任務，如果出現錯誤往往很難定位錯誤，所以遠程debug是開發中不可或缺的技能一 Permission denied（權限問題）權限問題，idea運行

2020-06-22 12:48:16

文章目錄一 map映射二 filter過濾三 reduce四 zip五 flatten六 groupBy/sortBy七案例-求wordcount並降序一 map映射有如下數組 val d = Array(1, 2, 3,

2020-06-22 12:48:16

網上很多都說要配置–driver-class-path的，又說要把mysql驅動包放到spark默認的classpath下面其實只需要配置–jars，然後設置下driver配置即可然後執行腳本 spark2-submit \

2020-06-22 12:48:16

文章目錄RDD是什麼RDD的五大特性和方法RDD的創建方式RDD的操作transformationaction RDD是什麼下面這個是Spark源碼中RDD的第一行描述 A Resilient Distributed Data

2020-06-22 12:48:15

文章目錄一執行流程圖二事務2.1 推送事務流程2.2 拉取事務流程一執行流程圖 1⃣️：Source 接受數據 2⃣️：Channel Processor 處理 Event 3⃣️：Channel Processor 將 E

2020-06-22 12:48:15

有如下代碼，我們需要做wc統計 def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").s

2020-06-22 12:48:05

文章目錄一自定義Source1.1 創建MySource1.2 打包上傳1.3 配置文件1.4 啓動agent1.5 結果展示二自定義Sink2.1 創建MySink2.2 打包上傳2.3 配置文件2.4 啓動agent三自

2020-06-22 12:48:05

官網地址：http://spark.apache.org/docs/latest/cluster-overview.html Glossary術語表標黃色的代表比較重要術語描述 Application 由dri

2020-06-22 11:25:38

文章目錄一下載源碼二自定義函數2.1 添加隨機數前綴函數2.2 移除前綴函數2.3 註冊函數三編譯四結果五測試函數六解決數據傾斜問題6.1 先把uid打散6.2 第一次聚合6.3 移除隨機數6.4 第二次聚合一下載

2020-06-22 11:25:37

文章目錄1 創建表2 導入Hive3 json_tuple查詢數據4 整理成大寬表首先我們有如下圖的json數據，我們需要把這份數據先導入到Hive，然後在整理成結構化的數據，這樣我們就可以根據需求查詢對應的數據了 1 創建表

2020-06-22 11:25:36

參考文章： https://www.iteblog.com/archives/992.html https://blog.csdn.net/muyingmiao/article/details/102259663 https://

2020-06-22 11:25:34

異常出現我們可以看到在org.apache.spark.streaming.kafka010.InternalKafkaConsumer找不到對應的類解決方法：因爲spark對應kafka有版本要求，我們在CDH的spar

2020-06-22 11:25:34

有如下的數據，我們需要對其進行排序，字段的意思分別爲：商品，價格，數量 val rdd = sc.parallelize(List( "iphone5 1000 20", "iphone6 2000 50", "iphone7

2020-06-22 11:25:33