原创 數據過濾
package emg.branchs import java.sql.{Connection, DriverManager} import emg.util._ import org.apache.spark.SparkConf
原创 spark常用的調參詳解
1.在submit中設置 在submit中設置注意後面的 \ --conf "spark.shuffle.blockTransferService=nio" \ 大數據集shuffle的時候,節點之間傳輸數據時使用netty
原创 在hive中的模糊查詢,刪除表,刪除不符合條件的數據
1.模糊查詢 類似: 在MYSQL裏面我們可以這樣的執行SQL select a.Community,a.PID,b.spidertime,b.comm,b.showings,b.room from lianjia_list a ,R
原创 獲取當前時間前一小時(比如hdfs目錄就是按照年月日小時來分級的)
直接調這個方法就可以 package emg.util import java.text.SimpleDateFormat import java.util.{Calendar, Date} /** * @Auther: sss
原创 使用Sqoop從PostgreSQL向Hive中遷移數據遇到的問題
postgreSQL的界面 跟mysql不同之處就是,多了一個 2 ,這也是導致數據遷移錯誤原因 1.數據庫名稱 2.schema 3.表名 PostgreSQL中的對象屬於三層模型,即database->schema->tabl
原创 將hive模糊查詢結果寫入分區表中
需求:只保留表1中12月27號的數據 其他日期的都不要 然後將結果又放回表1 最開始我是這種思路 : ~設置開啓動態分區開關 set hive.exec.dynamic.partition=true;
原创 scala數據如: 14,2,,3,,,23 查找出值爲null值的字段 填充固定的數字
package emg.branchs.test import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** * @Auther
原创 按照當前日期的前一小時讀取hdfs採坑記 Calendar.HOUR_OF_DAY
只讀到23點的數據 讀不到00點 看代碼發現是這裏寫錯了 //獲取前一個小時 24小時制Calendar.HOUR_OF_DAY def getFrontHour(): String = { var dateFor
原创 spark 常用算子總結
https://blog.csdn.net/fortuna_i/article/details/81170565 鏈接 https://blog.csdn.net/u013013024/article/details/73498
原创 spark連接hive的兩種方式
在pom中添加依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi
原创 簡單的shell腳本 執行hive
#!/bin/bash source /etc/profile locate emg4051:/opt/software/hive/bin/hive data=`date +%Y%m%d` echo "啓動hive ``````" e
原创 crontab定時任務 demo
service crond start //啓動服務 service crond stop //關閉服務 service crond restart //重啓服務 service crond reload
原创 scala 獲取當前日期
轉自:版權聲明:本文爲博主原創文章,出處爲 http://blog.csdn.net/silentwolfyh https://blog.csdn.net/silentwolfyh/article/details/51792039
原创 寫shell腳本 .sh
nohup /opt/software/spark/bin/spark-submit \ --name "filtertest" \ --master spark://spark安裝的主機名:7077 \ --executor-memo
原创 idea2017,2018最新破解碼。親測可用
轉自:https://www.cnblogs.com/aacoutlook/p/9036299.html 1、2017年親測 參考:https://www.haxotron.com/jetbrains-intellij-idea-crac