原创 spark-submit腳本參數的設置
--driver-memory 2G --executor-memory 4G --executor-cores 1 --num-executors 60 一共60個executor,每個executor,1個cores,4個G的me
原创 Hive--行轉列(Lateral View explode())和列轉行(collect_set() 去重)
原文鏈接:https://blog.csdn.net/kwu_ganymede/article/details/53435656 一行轉多行 說明:lateral view用於和split、
原创 scala中groupBy用在partition前面還是後面
要求:根據id分組,並對utc進行排序 val conf = new SparkConf() .setAppName("flow") .setMaster("local[*]") .reg
原创 插入數據時報錯找不到相對應的字符!!
object DailyCoverageRatioDAO { val pool = CreatePGSqlPoolForBigdata() def insertData(dailyNum_1: Int, dailyNum_4
原创 spark同時讀取多個指定文件
val result = spark.read.text("hdfs://192.168.40.51:9000/user/test/cxb/aa/aa.txt","hdfs://192.168.40.51:9000/user/test
原创 postgre數據庫中的字段區分大小寫!!!
昨天往postgre中插入數據的時候,數據庫中字段寫有大寫字母,代碼中也跟庫中字段一致。運行的時候報錯,說是識別不了字段。把庫中還有代碼中統一換成小寫就好了。!!!
原创 絕對好使,Push to origin/master was rejected
【問題描述】 在使用Git Push代碼的時候,會出現 Push to origin/master was rejected 的錯誤提示。 在第一次提交到代碼倉庫的時候非常容易出現,因爲初始化的倉庫和本地倉庫是沒有什麼關聯的,因此
原创 screen詳解
轉自:https://blog.mythsman.com/2016/01/19/1/ screen命令基本用法詳解 在服務器上搭建一些服務的時候,經常要用到screen命令。這是因爲一般情況下我們只會開一個連接服務器的控制檯,但是某些服務
原创 關於yarn啓動很長時間後關閉時報錯找不到路徑問題
yarn啓動了很長時間,公司停電需要關集羣,發現關閉不了yarn, 解決辦法:修改yarn的PID默認的路徑,tmp下是linux系統定時清理的,所以不能放在tmp下
原创 spark直接連接postgre數據庫
注意點: 數據存入Mysql或是postgre注意事項 A. 儘量先設置好存儲模式 默認爲SaveMode.ErrorIfExists模式,該模式下,如果數據庫中已經存在該表,則會直接報異常,導致數據不能存入數據庫.另外三種模式如下: S
原创 當任務提交到yarn上運行完成時,怎麼查看logs
直接將log下載到b.log中 yarn logs -applicationId application_1548399515783_0212 > b.log
原创 kill掉yarn上運行的job
轉自:https://blog.csdn.net/high2011/article/details/51941115 CDH中kill application的方式:(非cdh也同樣的操作) 1、找到yarn命令,如果命令沒有可執行權限,
原创 不知道該怎麼設定crontab的執行時間?那麼請看這裏
點擊這個網址:https://tool.lu/crontab/ 好使!!!
原创 spark處理json數據Demo
/** * @Auther: sss * @Date: 2019/2/26 14:24 * @Description: * ps:數據是json 如下(數據是a#b#格式) 需求:lat,lng