原创 編譯spark1.6.0出現 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)
spark 1.6 編譯 1、下載spark1.6源碼 2、安裝maven 3、解壓spark1.6 執行 export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeC
原创 spark 1.6.0 core源碼分析3 Master HA
在Master啓動過程中,首先調用了 netty on Start方法。 override def onStart(): Unit = { logInfo("Starting Spark master at " + ma
原创 linux 替換特殊符號 \\ 處理方式
-i參數:在原始文件上修改 sed全文替換的標準用法: sed 's/oldString/newString/g' filename 但是有特殊字符時則失效,需要將‘/’替換成‘#’: sed 's#oldString#newString
原创 解決hivemeta 多服務緩存數據不同步問題
1、改動的地方 2、增加的數據表hiveMetastore.METASTORE_REFRESH 數據表 1、增加了各個hivemeta 服務進行定時檢測功能,檢測其他hivemta 是否有alter 操作 設計思想圖:
原创 hivemeta、sparkSubmit進程參數優化
1、對hive參數優化 優化 hivemeta進程和sparksubmit進程 修改hive-env.sh添加 vi hive/conf/hive-env.sh export HADOOP_OPTS="$HADO
原创 設置spark thriftServer2 端口
spark thriftServer要設置開放端口,在hive-site.xml中設置沒有用時:可以設置: export HIVE_SERVER2_THRIFT_PORT=10013 腳本如下: act=$1 export HIVE_SE
原创 Hive textfile數據表更改輸入輸出文件格式
alter table tmp_etltest.xxx SET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apa
原创 spark 1.6.0 core源碼分析5 spark提交框架
從sparkSubmit腳本中可以看到現在spark提交任務都是是用: exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"首先來看
原创 spark 1.6.0 core源碼分析1 集羣啓動及任務提交過程
spark版本號:1.6.0 spark源碼分析目的是在解讀源碼的過程中記錄一些重要的步驟,加深記憶,方便以後複習。Standalone集羣啓動及任務提交過程詳解 正常啓動及job提交過程如下: 1. 啓動master 2. 啓動wor
原创 spark 1.6.0 core源碼分析2 master啓動流程
源碼位置:org.apache.spark.deploy.master.Master.scala def main(argStrings: Array[String]) { SignalLogger.register(log)
原创 spark 1.6.0 core源碼分析4 worker啓動流程
worker的main方法,與master類似,創建sparkConf,參數解析,以及構造worker對象並創建rpcEnv用於對外或者本身的信息交互。 private[deploy] object Worker extends Log
原创 sqoop 處理換行符 \n 和\r 等特殊符號處理
公司大數據平臺ETL操作中,在使用sqoop將mysql中的數據抽取到hive中時,由於mysql庫中默寫字段中會有換行符,導致數據存入hive後,條數增多(每個換行符會多出帶有null值得一條數據),導致統計數據不準確。因爲sqoo
原创 ERROR YarnScheduler: Lost executor
執行腳本出現: 15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on myhost1.com: remote Rpc client disassociated
原创 spark 1.6.0 core源碼分析6 Spark job的提交
本節主要講解SparkContext的邏輯 首先看一個spark自帶的最簡單的例子:object SparkPi { def main(args: Array[String]) { val conf = new Spa
原创 hadoop namenode進程參數調整
修改hadoop-env.sh添加 vi $HADOOP_HOME/conf/hadoop-env.sh export HADOOP_NAMENODE_OPTS="-Xmx16384m -Xms4096m -Xmn2048m -