原创 java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.

遇到這種問題首先考慮是不是jar包衝突  也就是依賴中存在多個版本的 netty導致程序出現NoSuchMethodError異常。 接下來使用命令mvn dependency:tree >> log/dependency.log用於分析

原创 SparkSql的幾種join

1.小表對大表(broadcast join)   將小表的數據分發到每個節點上,供大表使用。executor存儲小表的全部數據,一定程度上犧牲了空間,換取shuffle操作大量的耗時,這在SparkSQL中稱作Broadcast Joi

原创 Spark接入kafka的jar問題

首先spark的實時處理分爲  sparkStreaming和structured streaming 倆中處理方式 sparkStreaming  需要引入  <dependency> <groupId>org.apache.s

原创 binlog解析

MySQL的binlog 日誌對於生產環境非常有用,任何時間對數據庫的修改都會記錄在binglog中;當數據發生增刪改,創建數據庫對象都會記錄到binlog中,數據庫的複製也是基於binlog進行同步數據; 和SQL SERVER 數據庫

原创 Java Scala 混合編程導致 編譯失敗 ,【找不到符號】問題解決

大致就是 工程裏分了 java 代碼 和 scala 代碼。 然後在java代碼中 引用了 scala 的代碼。  運行不報錯。  但是打包就是一直報錯。 [ERROR] Failed to execute goal org.apache

原创 java集合和scala集合的相互轉換

對於java中的集合元素並不能在scala中拿來就用的,需要進行相應的轉換。 1. 轉換規則如下 從下面可以看出,有些可以相互轉換的,有些只能單向轉換: scala.collection.Iterable <=> java.lang.

原创 SparkSql常見內置函數

字符串: 1.concat對於字符串進行拼接 concat(str1, str2, ..., strN) - Returns the concatenation of str1, str2, ..., strN. Examples:> S

原创 Spark程序引用別的jar

第一種方式 操作:將第三方jar文件打包到最終形成的spark應用程序jar文件中 應用場景:第三方jar文件比較小,應用的地方比較少 第二種方式 操作:使用spark-submit提交命令的參數: --jars 要求: 1、使用spar

原创 Linux下查看磁盤與目錄的容量——df、du

df:列出文件系統的整體磁盤使用量; du:評估文件系統的磁盤使用量(常用於評估目錄所佔容量) df參數: -a:列出所有的文件系統,包括系統特有的/proc等文件系統 -k:以KB的容量顯示各文件系統 -m:以MB的容量顯示各文件系統

原创 idea用spark本地操作hdfs集羣

在windows開發機上使用spark的local模式讀取遠程hadoop集羣中的hdfs上的數據,這樣的目的是方便快速調試,而不用每寫一行代碼或者一個方法,一個類文件都需要打包成jar上傳到linux上,再扔到正式的集羣上進行測試,像功

原创 Linux 環境變量配置

1.系統環境變量配置       執行 vim /etc/profile       保存後執行source /etc/profile立即生效   2.用戶環境變量配置   查看當前有哪些環境變量         直接輸入命令:env  

原创 SparkSql ----DataFrame

Spark SQL是spark用來處理結構化數據的 Spark中所有功能的入口點都是SparkSession類。要創建基本的SparkSession,只需使用SparkSession.builder(): import org.apa

原创 Hbase設置TTL

TTL縮寫Time To Live,即生存期。TTL設置了一個基於時間戳的臨界值, 內部的管理會自動檢查TTL值是否達到上限,在major合併過程中時間戳被判定爲超過TTL的數據會被自動刪除。 TTL參數的單位是秒,默認值是Integer