原创 正則匹配一個大於等於99000的數

String s = "^([9]{2,}\\d{3,}|[1-9]\\d{5,})(\\.\\d+)?$"; 詳細講解 ^ 以什麼開頭 | 或者 $ 結束 ? 匹配0次或一次 [9]{2,} 匹配兩個以上的9 \\d{3,}

原创 KafkaAPI 和 KafkaStreamAPI

文章目錄pom生產者producer代碼自定義分區代碼消費者代碼,通過分區進行拉取kafkaStreamAPI pom <dependencies> <!-- https://mvnrepository.c

原创 Spark集羣配置 和 Spark HA 集羣配置 以及 Spark on yarn 模式

文章目錄1. 安裝前說明2. 配置spark1. 上傳解壓2. 配置環境變量3.修改spark 的 配置1. 修改 spark-env.sh 文件2. 在spark-env.sh文件中添加如下內容3. 修改slaves 文件4.

原创 大數據面試簡答題(五) -yarn

文章目錄1、什麼是Yarn2、Yarn特點:3、Yarn的意義:4、Yarn基本組成5、Yarn提交任務的流程6、Yarn的調度方式7、參數yarn.scheduler.fair.allow-undeclared-pools的作用

原创 hadoop HA配置

文章目錄一、準備工作二、安裝配置hadoop1. 上傳到集羣2. 解壓3.配置環境變量4.修改core-site.xml配置文件5.修改hdfs-site.xml6.修改 mapred-site.xml7.修改 yarn-site

原创 配置hadoop HA 初始化時報錯 Configuration has multiple addresses that match local node's address.

出錯詳情 ************************************************************/ 20/03/11 10:49:09 INFO namenode.NameNode: regist

原创 spark 數據寫入HBase時內存溢出了 java.lang.OutOfMemoryError: Unable to acquire 60 bytes of memory, got 0

錯誤詳情 java.lang.OutOfMemoryError: Unable to acquire 60 bytes of memory, got 0 at org.apache.spark.memory.MemoryCons

原创 spark core思維導圖

部分展示如下 提取鏈接: 鏈接:https://pan.baidu.com/s/1pJUDpvG76SNRVzU5CnDSFA 提取碼:t5yy 其它的spark相關的整理 sparksql思維導圖 structed Str

原创 大數據面試簡答題 (一) - hadoop

文章目錄1.怎麼理解分佈式?2.hadoop 的組成部分3.HDFS副本存放機制4.Namenode作用5.DataNode作用6.什麼是機架感知?7.什麼時候會用到機架感知?8.HDFS數據寫入流程?在這裏插入圖片描述9.HDF

原创 Hbase buckload方式加載數據報錯 無法讀取分區文件

錯誤詳情 Error: java.lang.IllegalArgumentException: Can't read partitions file at org.apache.hadoop.mapreduce.lib.p

原创 linux 操作系統安裝詳解(CentOS 6.9/自定義分區)

文章目錄1.創建新的虛擬機2.選擇自定義然後下一步3.此選項默認就行然後下一步4.稍後安裝操作系統 然後下一步5.選擇linux操作系統 選擇CentOS 大的版本號6.給虛擬機命名 並選擇安裝位置 然後下一步7.爲虛擬機指定處

原创 spark Caused by: java.lang.ClassNotFoundException: libsvm.DefaultSource

今天學習spark-mlib時報錯說找不到libsvm.DefaultSource 詳情如下: Exception in thread "main" java.lang.ClassNotFoundException: Failed

原创 oozie一直處於RUNNING 狀態,任務無法提交到YARN

出錯截圖 問題發生的原因 oozie 默認設置使用的是hadoop 1.0 jobTracker端口 8021如圖所示 如果使用的是hadoop2.0 並且使用 yarn調度的話得修改爲8032端口,修改後如圖所示

原创 linux 集羣時間同步 (不聯網)

文章目錄第一步 :確定是否安裝ntpd 服務第二步: 確定ntpd 服務是否開啓第三步: 關閉 防火牆 iptables第四步:關閉selinux第五步:修改ntp配置文件第六步: 修改第二個配置文件第七步:重啓ntpd 服務第

原创 SparkSql 思維導圖整理

部分詳情 自己整理的一份SparkSql 思維導圖,後續還會有其它的思維導圖分享,敬請期待!!! 提取地址: 鏈接: https://pan.baidu.com/s/1f3pMedHHnZII65AJwFx9dQ 提取碼: qh