原创 Spark 直接操作數據源 MySQL

如果我們的Mysql服務器性能不咋滴,但是硬盤很夠,如何才能做各種複雜的聚合操作?答案就是使用spark的計算能力的,我們可以將mysql數據源接入到spark中。 讀取 val mysqlDF = spark .read .f

原创 Spark 在文件上直接使用SQL查詢

有時候有沒有這麼一種情況,我拿到了一個sql,csv,parquet文件,一起來就想寫sql,不想寫那些亂七八糟的的東西,只是想快速實現我要的數據。那麼我們可以利用spark直接操作文件的特性處理這樣的問題。 使用方法 csv spar

原创 來、這裏有Hbase導出CSV格式數據的文章

新鮮文章,昨天剛經過線上驗證過的,使用它導出了3億的用戶數據出來,花了半個小時,性能還是穩穩的,好了不吹牛皮了,直接上代碼吧。 MR 考查了Hbase的各種MR,沒有發現哪一個是能實現的,如果有請通知我,我給他發紅包。 所以我們只能自己

原创 Scala shell 使用外部包方法

我們可以使用scala shell做很多事情,比如測試一些demo,不用再打開idea那類那麼重的編輯器,當然還有其它用法,像我們使用hbase有這樣的問題,只是想測試hbase一些東西,但是每次連接hbase很慢,使用scala she

原创 你們還在用 Scala Tuple234..? Outer啦

爲什麼這麼說呢,難道我自己多年使用的方式錯了嘛,是的,你沒錯,我錯了,哈哈,主要原因是使用Tuple的時候容易搞錯對象,Tuple2的時候還知道第一個參數跟第二個參數的意思,後面多來個幾參數你會記得_1._2._3._4代表的意思是什麼嗎

原创 Hbase 遷移數據[導出,導入]

有沒有這樣一樣情況,把一個集羣中的某個表導到另一個羣集中,或者hbase的表結構發生了更改,但是數據還要,比如預分區沒做,導致某臺RegionServer很吃緊,Hbase的導出導出都可以很快的完成這些操作。 環境使用 現在環境上面有

原创 Dl4j CSV數據轉換demo

準備數據 0,0,24,9.833333333333334,10,9.7,454,0 0,1,4,17.0,1,17.0,432,0 1,0,2,20.0,1,20.0,0,0 1,1,24,10.375,13,9.615384615384

原创 Spark Gradle 最優打包方案

想不想把spark項目打包更快一點?如果把幾百M的依賴包打成一個包是很花時間的,少則1分鐘,多則幾分鐘,這些時間還不如留着跟前臺妹子聊會天呢,經過幾百遍的測試,平時要花1分20秒才能打成的jar包,現在只需要9秒,沒錯你沒聽錯就是9

原创 Gradle 打包上傳中央倉庫

打包步驟 生成gpg密鑰 gpg --full-generate-key gpg (GnuPG) 2.2.12; Copyright (C) 2018 Free Software Foundation, Inc. This is free

原创 Spark 資源動態釋放

通過spark-submit會固定佔用一佔的資源,有什麼辦法,在任務不運作的時候將資源釋放,讓其它任務使用呢,yarn新版本默認已經支持了,我們使用的是HDP。 版本如下 配置 HDP裏面已經默認支持spark動態資源釋配置 代碼配

原创 Spark RDD/Dataframe/Dataset 無聊的性能測試

Spark 在三個彈性數據集,但是我們並不知道哪個性能比較好(有的文章的說Dataset<Dataframe<RDD),好了,這下就有個無聊的人了,那就是我,這裏會測試一下它們的性能如何。 測試代碼 class App10 { S

原创 HDFS_DELEGATION_TOKEN 還原及解決方案

HDFS_DELEGATION_TOKEN 這個BUG在很多文章中都出現着,講了很多原理,但是隻給出了官方引用地扯,完全沒有給出如何解決,我們線上的業務就有着這樣的問題,7天一到馬上出現這問題了,官方明明說這個bug修復了呀,因爲我們使用

原创 Spark Gradle jar 包分離方法

想不想把spark項目打包更快一點?如果把幾百M的依賴包打成一個包是很花時間的,少則1分鐘,多則幾分鐘,這些時間還不如留着跟前臺妹子聊會天呢,經過幾百遍的測試,平時要花1分20秒才能打成的jar包,現在只需要9秒,沒錯你沒聽錯就是9秒,咳

原创 Hbase BulkLoad方式導入百億級數據

衆所周知Hbase的BulkLoad是最快導入數據的方式,在導入歷史數據的時候,我們一般會選擇使用BulkLoad方式,我們可以藉助Spark的計算能力將數據快速地導入。 使用方法 導入依賴包 compile group: 'or

原创 Linux 多線程壓縮日誌文件

這裏有17個G的日誌文件,使用多線程壓縮2分23秒即可壓縮完成3.2G的壓縮,6倍的壓縮比,普通壓縮則要使用7分50秒,整整多出了3倍,我們看看是怎麼使用的。 使用方法 安裝pigz yum install pigz -y # 或者 a