原创 spark-submit腳本參數的設置

--driver-memory 2G --executor-memory 4G --executor-cores 1 --num-executors 60  一共60個executor,每個executor,1個cores,4個G的me

原创 Hive--行轉列(Lateral View explode())和列轉行(collect_set() 去重)

原文鏈接:https://blog.csdn.net/kwu_ganymede/article/details/53435656   一行轉多行 說明:lateral view用於和split、

原创 scala中groupBy用在partition前面還是後面

 要求:根據id分組,並對utc進行排序 val conf = new SparkConf() .setAppName("flow") .setMaster("local[*]") .reg

原创 插入數據時報錯找不到相對應的字符!!

object DailyCoverageRatioDAO { val pool = CreatePGSqlPoolForBigdata() def insertData(dailyNum_1: Int, dailyNum_4

原创 spark同時讀取多個指定文件

val result = spark.read.text("hdfs://192.168.40.51:9000/user/test/cxb/aa/aa.txt","hdfs://192.168.40.51:9000/user/test

原创 postgre數據庫中的字段區分大小寫!!!

 昨天往postgre中插入數據的時候,數據庫中字段寫有大寫字母,代碼中也跟庫中字段一致。運行的時候報錯,說是識別不了字段。把庫中還有代碼中統一換成小寫就好了。!!!

原创 絕對好使,Push to origin/master was rejected

【問題描述】   在使用Git Push代碼的時候,會出現 Push to origin/master was rejected 的錯誤提示。   在第一次提交到代碼倉庫的時候非常容易出現,因爲初始化的倉庫和本地倉庫是沒有什麼關聯的,因此

原创 screen詳解

轉自:https://blog.mythsman.com/2016/01/19/1/ screen命令基本用法詳解 在服務器上搭建一些服務的時候,經常要用到screen命令。這是因爲一般情況下我們只會開一個連接服務器的控制檯,但是某些服務

原创 關於yarn啓動很長時間後關閉時報錯找不到路徑問題

yarn啓動了很長時間,公司停電需要關集羣,發現關閉不了yarn, 解決辦法:修改yarn的PID默認的路徑,tmp下是linux系統定時清理的,所以不能放在tmp下

原创 spark直接連接postgre數據庫

注意點: 數據存入Mysql或是postgre注意事項 A. 儘量先設置好存儲模式 默認爲SaveMode.ErrorIfExists模式,該模式下,如果數據庫中已經存在該表,則會直接報異常,導致數據不能存入數據庫.另外三種模式如下: S

原创 當任務提交到yarn上運行完成時,怎麼查看logs

直接將log下載到b.log中  yarn logs -applicationId  application_1548399515783_0212   >   b.log

原创 kill掉yarn上運行的job

轉自:https://blog.csdn.net/high2011/article/details/51941115 CDH中kill application的方式:(非cdh也同樣的操作) 1、找到yarn命令,如果命令沒有可執行權限,

原创 不知道該怎麼設定crontab的執行時間?那麼請看這裏

點擊這個網址:https://tool.lu/crontab/ 好使!!!

原创 spark處理json數據Demo

/** * @Auther: sss * @Date: 2019/2/26 14:24 * @Description: * ps:數據是json 如下(數據是a#b#格式) 需求:lat,lng