原创 dbeaver連接phoenix異常: org.apache.hadoop.hbase.util.ClassSize和Unexpected version format:11.0.3

一 異常問題 通過dbeaver連接phoenix的時候,會出現如下的兩種異常: Could not initialize class org.apache.hadoop.hbase.util.ClassSize Unexpect

原创 Spark中textFile產生了幾個RDD

我們可以用toDebugString方法看看產生了幾個RDD val rdd = sc.textFile("file:///home/hadoop/data/wc.dat") rdd.toDebugString 從下圖中可以看出

原创 IDEA中MR提交作業到yarn,踩坑彙總

跑mapreduce任務只知道在在本地打成jar,提交到hadoop集羣上去跑任務,如果出現錯誤往往很難定位錯誤,所以遠程debug是開發中不可或缺的技能 一 Permission denied(權限問題) 權限問題,idea運行

原创 scala中常用的函數式編程

文章目錄一 map映射二 filter過濾三 reduce四 zip五 flatten六 groupBy/sortBy七 案例-求wordcount並降序 一 map映射 有如下數組 val d = Array(1, 2, 3,

原创 spark on yarn cluster模式,異常:no suitable driver

網上很多都說要配置–driver-class-path的,又說要把mysql驅動包放到spark默認的classpath下面 其實只需要配置–jars,然後設置下driver配置即可 然後執行腳本 spark2-submit \

原创 spark中RDD的五大特性

文章目錄RDD是什麼RDD的五大特性和方法RDD的創建方式RDD的操作transformationaction RDD是什麼 下面這個是Spark源碼中RDD的第一行描述 A Resilient Distributed Data

原创 flume執行流程與事務(圖解)

文章目錄一執行流程圖二 事務2.1 推送事務流程2.2 拉取事務流程 一執行流程圖 1⃣️:Source 接受數據 2⃣️:Channel Processor 處理 Event 3⃣️:Channel Processor 將 E

原创 Spark的wc過程分析

有如下代碼,我們需要做wc統計 def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").s

原创 Flume自定義Source、Sink、Interceptor

文章目錄一 自定義Source1.1 創建MySource1.2 打包上傳1.3 配置文件1.4 啓動agent1.5 結果展示二 自定義Sink2.1 創建MySink2.2 打包上傳2.3 配置文件2.4 啓動agent三 自

原创 Spark的核心術語

官網地址:http://spark.apache.org/docs/latest/cluster-overview.html Glossary術語表 標黃色的代表比較重要 術語 描述 Application 由dri

原创 hive自定義函數後,編譯源碼,並解決數據傾斜

文章目錄一 下載源碼二 自定義函數2.1 添加隨機數前綴函數2.2 移除前綴函數2.3 註冊函數三 編譯四 結果五 測試函數六 解決數據傾斜問題6.1 先把uid打散6.2 第一次聚合6.3 移除隨機數6.4 第二次聚合 一 下載

原创 json導入Hive,並整理成大寬表

文章目錄1 創建表2 導入Hive3 json_tuple查詢數據4 整理成大寬表 首先我們有如下圖的json數據,我們需要把這份數據先導入到Hive,然後在整理成結構化的數據,這樣我們就可以根據需求查詢對應的數據了 1 創建表

原创 Hadoop支持lzo壓縮(版本cdh5.15.1)

參考文章: https://www.iteblog.com/archives/992.html https://blog.csdn.net/muyingmiao/article/details/102259663 https://

原创 spark on yarn cluster模式,異常:NoSuchMethodError: org.apache.kafka.clients.consumer.KafkaConsumer

異常出現 我們可以看到在org.apache.spark.streaming.kafka010.InternalKafkaConsumer找不到對應的類 解決方法: 因爲spark對應kafka有版本要求,我們在CDH的spar

原创 Spark中排序的幾種方式

有如下的數據,我們需要對其進行排序,字段的意思分別爲:商品,價格,數量 val rdd = sc.parallelize(List( "iphone5 1000 20", "iphone6 2000 50", "iphone7