原创 Scala List的一些常用方法

Scala List的常用方法,梳理出來 創建空列表 scala> val arr1 = Nil arr1: scala.collection.immutable.Nil.type = List() scala> val arr

原创 HBase完全分佈式搭建

前言 HBase – Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。 HBase是Google Bigtable

原创 Azkaban的簡介和安裝(3.47.0版本,兩個服務模式安裝)

Azkaban簡介 官網: https://azkaban.github.io/ Azkaban是由Linkedin開源的一個批量工作流任務調度器。用於在一個工作流內以一個特定的順序運行一組工作和流程。 Azkaban定義了一種

原创 sqoop從mysql導入數據到hive時tinyint字段自動變成Boolean解決方案

最近在做sqoop導出數據的時候,mysql中有的字段到hive中自動轉換成boolean類型了.這個需要解決,不然數據對不上. 查了查官方文檔,官方文檔裏有說明,這裏貼一下文檔. 27.2.5. MySQL: Import o

原创 Linux正則表達式基礎入門+擴展

最近在看正則表達式部分的東西,有些東西記錄下. “ .”(一個點)符號. 點符號用於匹配除換行符之外的任意一個字符。例如:r.t可以匹配rot、rut “ * ”符號. *符號用於匹配前一個字符0次或任意多次 “ {n,m}”符

原创 java單例模式幾種常見實現方式

什麼是單例模式 因進程需要,有時我們只需要某個類同時保留一個對象,不希望有更多對象,此時,我們則應考慮單例模式的設計。 單例模式的特點 1、單例模式只能有一個實例。 2、單例類必須創建自己的唯一實例 3、單例類必須向其他對

原创 記一次Hive 行轉列 引起的GC overhead limit exceeded

在一次hive語句進行行轉列操作的時候,幾千萬的數據量發生了omm, GC overhead limit exceeded. 去網上查找了一下,判斷是自己給map端和reduce端的內存太小了,才導致的omm,所以增加map端和

原创 shell腳本中$0,$?,$!、$$、$*、$#、$@等的意義

在shell腳本中,會經常用到變量,對一些常用的變量表達式做個記錄 $$ Shell本身的PID(ProcessID) $! Shell最後運行的後臺Process的PID $? 最後運行的命令的結束代碼(返回值) $- 使用Se

原创 SparkSQL數據DataFrame向ElasticSearch寫入的優化,親測提高數倍

前言 最近sparksql寫入elasticsearch數據量逐漸增大,所以需要優化寫入的速度. 先說一下集羣情況. es集羣:elasticsearch-6.2.4, 機器配置:5臺4C*16G阿里雲機器. spark: 2

原创 Java數組模擬簡單隊列實現(順序隊列,環形隊列)

順序隊列實現 //使用數組模擬隊列 class ArrayQue{ //表示數組最大容量 private int maxSize; //隊列頭 private int front; //

原创 shell中獲取當前日期,下月1日,上月底,上月同期日期,比較兩個日期大小

在實際開發過程中會用到一些特定時間,請注意其中下月1日和上月同期日期無法用shell命令直接獲取,需做判斷 1.獲取系統當前時間 today=`date +%Y%m%d` 2.本月1日 firstday=`date -d "${t

原创 flume的ChannelExceptio以及memeryChannel中transactionCapacity和sink的batchsize需要注意事項

最近在做flume的日誌收集,在用flume的時候發現一個報錯. 14 Mar 2020 14:23:58,194 ERROR [SinkRunner-PollingRunner-DefaultSinkProcessor] (or

原创 sparkstreaming ConcurrentModificationException: KafkaConsumer is not safe for multi-threaded access

最近在測試sparkstreaming的時候發現了一個問題,記錄一下 環境 spark 2.x, kafka_0.10.x 示例代碼: val ssc: StreamingContext = new StreamingContex

原创 解決spark.rdd.MapPartitionsRDD cannot be cast to streaming.kafka010.HasOffsetRange問題

最近在做sparkstreaming測試的時候,自己出了一個小問題,記錄下. 貼部分代碼: package com.ybs.screen.test.data import java.lang import java.util.P

原创 FastJson對JSON字符串、JSON對象及JavaBean之間的相互轉換

原文鏈接: 使用FastJson對JSON字符串、JSON對象及JavaBean之間的相互轉換 maven依賴包: <!-- https://mvnrepository.com/artifact/com.alibaba/fastj