原创 spark加載properties配置文件方法
首先我先介紹一下錯誤的寫法,這個加載配置文件方法是錯誤的: val props = new Properties(); val loader = getClass.getClassLoader; props.loa
原创 linux下搭建多個tomcat
步驟如下: (1)修改/etc/profile文件。添加一組java環境變量,和兩組CATALINA環境變量(我沒有進行此步驟的設置,可能因爲我的Tomcat是免安裝版的吧)記得修改完要使其生效,用命令:source /etc/pro
原创 spark的rdd.saveastextfile可以追加寫入hdfs嗎
是不能的,現在我來說一下原因,首先spark的任務是並行的,如果你的所有的j任務都往一個文件中追加,那麼這些任務都必須去獲得會後一行的位置,但是最後
原创 sbt編譯項目
1.下載sbt.zip http://www.scala-sbt.org/download.html 2.Windows環境下建議配置SBT的環境變量。具體步驟不說了,就是把sbt/bin目錄配置進PATH。 3. 在sbt
原创 impala無法查詢hive表的數據,或者不能同步hive數據
hive可以查詢,但是impala無法查詢,一般這種情況是數據類型不對,會導致這種情況。比如你程序插入數據類型是int,但是hive建表是bigint,你impala表就無法查詢。
原创 Java發送郵件和python發送郵件
1.發送郵件maven的依賴 <dependency> <groupId>javax.activation</groupId> <artifactId>activation</artifactId> <version>1.1</vers
原创 kafka認證
很久沒寫文章了,之所以寫這篇文章是想其他同學少走彎路,因爲我在進行配置的時候發現google及百度沒有一篇像樣的文章。官方doc說的又不是很清楚,所以比較蛋疼,最終還是折騰出來了。 Kafka SSL 配置 大家先可以
原创 spark streaming 的textFileStream讀取不了數據原因分析
這路徑如果hdfs的路徑 你直接hadoop fs -put 到你的監測路徑就可以,如果是本地目錄用file:///home/data 你不能移動
原创 spark的UI界面
[看圖說話] 基於Spark UI性能優化與調試——初級篇 Spark有幾種部署的模式,單機版、集羣版等等,平時單機版在數據量不大的時候可以跟傳統的java程序一樣進行斷電調試、但是在集羣上調試就比較麻煩了...遠程斷點不太
原创 用shell命令獲得hdfs文件名並動態創建hive表
#獲得文件夾下的文件名並循環每個文件名 files=`hadoop fs -ls /home/out/aidfilter | awk -F " " '{print $8}'` for name in $filesdo #awk命令按“/
原创 spark向kafka寫入數據
前言 在WeTest輿情項目中,需要對每天千萬級的遊戲評論信息進行詞頻統計,在生產者一端,我們將數據按照每天的拉取時間存入了Kafka當中,而在消費者一端,我們利用了spark streaming從kafka中不斷拉取數據進行詞頻統計
原创 進程監控高可用自啓動腳本
#!/bin/bash job_local=`ps -ef | grep data.json | grep -v grep | awk '{print $2}'` #監控本地 第一個grep寫你要監控的進程 job=`ssh root
原创 史上最簡單的免密登陸
機器A到機器B免密 1.在機器A輸入下面命令,三次回車後,就在機器A產生公鑰和私鑰 ssh-keygen 2.在機器A的/root/.ssh目錄下執行下面命令,就複製到了機器B上 ssh-copy-id 機器B的ip 3.這樣就可以S
原创 python webdriver api對啓動的火狐瀏覽器設置用戶環境和添加配置
1.在CMD中使用cd命令進入firefox.exe文件所在目錄(比如:C:\Program Files\Mozilla Firefox), 並輸入firefox.exe -ProfileManager -no-remote命令,然後按E
原创 crontab腳本可以執行成功,但是定時無法執行成功
1.定時的腳本里面不要包含相對路徑,腳本嵌套腳本也不要有相對路徑,全部換成絕對路徑 2.你登錄狀態執行腳本可以成功的原因是你的環境變量已經加載,系統登陸時會自動加載各種環境配置文件 在你的腳本里開始的地方加載如下代碼(注意是點加空格)