台部落dounine

如果我們的Mysql服務器性能不咋滴，但是硬盤很夠，如何才能做各種複雜的聚合操作？答案就是使用spark的計算能力的，我們可以將mysql數據源接入到spark中。讀取 val mysqlDF = spark .read .f

2019-02-19 13:23:04

有時候有沒有這麼一種情況，我拿到了一個sql,csv,parquet文件，一起來就想寫sql，不想寫那些亂七八糟的的東西，只是想快速實現我要的數據。那麼我們可以利用spark直接操作文件的特性處理這樣的問題。使用方法 csv spar

2019-02-19 13:23:04

新鮮文章，昨天剛經過線上驗證過的，使用它導出了3億的用戶數據出來，花了半個小時，性能還是穩穩的，好了不吹牛皮了，直接上代碼吧。 MR 考查了Hbase的各種MR，沒有發現哪一個是能實現的，如果有請通知我，我給他發紅包。所以我們只能自己

2019-02-16 13:23:01

我們可以使用scala shell做很多事情，比如測試一些demo，不用再打開idea那類那麼重的編輯器，當然還有其它用法，像我們使用hbase有這樣的問題，只是想測試hbase一些東西，但是每次連接hbase很慢，使用scala she

2019-01-27 13:20:41

爲什麼這麼說呢，難道我自己多年使用的方式錯了嘛，是的，你沒錯，我錯了，哈哈，主要原因是使用Tuple的時候容易搞錯對象，Tuple2的時候還知道第一個參數跟第二個參數的意思，後面多來個幾參數你會記得_1._2._3._4代表的意思是什麼嗎

2019-01-26 13:22:20

有沒有這樣一樣情況，把一個集羣中的某個表導到另一個羣集中，或者hbase的表結構發生了更改，但是數據還要，比如預分區沒做，導致某臺RegionServer很吃緊，Hbase的導出導出都可以很快的完成這些操作。環境使用現在環境上面有

2019-01-22 13:19:12

準備數據 0,0,24,9.833333333333334,10,9.7,454,0 0,1,4,17.0,1,17.0,432,0 1,0,2,20.0,1,20.0,0,0 1,1,24,10.375,13,9.615384615384

2019-01-18 13:20:29

想不想把spark項目打包更快一點？如果把幾百M的依賴包打成一個包是很花時間的，少則1分鐘，多則幾分鐘，這些時間還不如留着跟前臺妹子聊會天呢，經過幾百遍的測試，平時要花1分20秒才能打成的jar包，現在只需要9秒，沒錯你沒聽錯就是9

2019-01-10 15:36:38

2019-01-08 13:22:51

通過spark-submit會固定佔用一佔的資源，有什麼辦法，在任務不運作的時候將資源釋放，讓其它任務使用呢，yarn新版本默認已經支持了，我們使用的是HDP。版本如下配置 HDP裏面已經默認支持spark動態資源釋配置代碼配

2019-01-04 13:56:36

Spark 在三個彈性數據集，但是我們並不知道哪個性能比較好(有的文章的說Dataset<Dataframe<RDD)，好了，這下就有個無聊的人了，那就是我，這裏會測試一下它們的性能如何。測試代碼 class App10 { S

2019-01-02 13:22:06

HDFS_DELEGATION_TOKEN 這個BUG在很多文章中都出現着，講了很多原理，但是隻給出了官方引用地扯，完全沒有給出如何解決，我們線上的業務就有着這樣的問題，7天一到馬上出現這問題了，官方明明說這個bug修復了呀，因爲我們使用

2018-12-30 13:29:00

想不想把spark項目打包更快一點？如果把幾百M的依賴包打成一個包是很花時間的，少則1分鐘，多則幾分鐘，這些時間還不如留着跟前臺妹子聊會天呢，經過幾百遍的測試，平時要花1分20秒才能打成的jar包，現在只需要9秒，沒錯你沒聽錯就是9秒，咳

2018-12-30 13:29:00

衆所周知Hbase的BulkLoad是最快導入數據的方式，在導入歷史數據的時候，我們一般會選擇使用BulkLoad方式，我們可以藉助Spark的計算能力將數據快速地導入。使用方法導入依賴包 compile group: 'or

2018-12-28 13:24:50

這裏有17個G的日誌文件，使用多線程壓縮2分23秒即可壓縮完成3.2G的壓縮，6倍的壓縮比，普通壓縮則要使用7分50秒，整整多出了3倍，我們看看是怎麼使用的。使用方法安裝pigz yum install pigz -y # 或者 a

2018-12-28 13:24:50