原创 編譯spark1.6.0出現 Failed to execute goal org.codehaus.mojo:exec-maven-plugin:1.4.0:exec (sparkr-pkg)

spark 1.6 編譯 1、下載spark1.6源碼 2、安裝maven 3、解壓spark1.6  執行 export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeC

原创 spark 1.6.0 core源碼分析3 Master HA

在Master啓動過程中,首先調用了 netty on Start方法。 override def onStart(): Unit = { logInfo("Starting Spark master at " + ma

原创 linux 替換特殊符號 \\ 處理方式

-i參數:在原始文件上修改 sed全文替換的標準用法: sed 's/oldString/newString/g' filename 但是有特殊字符時則失效,需要將‘/’替換成‘#’: sed 's#oldString#newString

原创 解決hivemeta 多服務緩存數據不同步問題

1、改動的地方 2、增加的數據表hiveMetastore.METASTORE_REFRESH 數據表     1、增加了各個hivemeta 服務進行定時檢測功能,檢測其他hivemta 是否有alter 操作 設計思想圖:    

原创 hivemeta、sparkSubmit進程參數優化

    1、對hive參數優化    優化 hivemeta進程和sparksubmit進程 修改hive-env.sh添加     vi hive/conf/hive-env.sh export HADOOP_OPTS="$HADO

原创 設置spark thriftServer2 端口

spark thriftServer要設置開放端口,在hive-site.xml中設置沒有用時:可以設置: export HIVE_SERVER2_THRIFT_PORT=10013 腳本如下: act=$1 export HIVE_SE

原创 Hive textfile數據表更改輸入輸出文件格式

alter table tmp_etltest.xxx SET FILEFORMAT INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT 'org.apa

原创 spark 1.6.0 core源碼分析5 spark提交框架

從sparkSubmit腳本中可以看到現在spark提交任務都是是用: exec "${SPARK_HOME}"/bin/spark-class org.apache.spark.deploy.SparkSubmit "$@"首先來看

原创 spark 1.6.0 core源碼分析1 集羣啓動及任務提交過程

spark版本號:1.6.0 spark源碼分析目的是在解讀源碼的過程中記錄一些重要的步驟,加深記憶,方便以後複習。Standalone集羣啓動及任務提交過程詳解 正常啓動及job提交過程如下: 1. 啓動master 2. 啓動wor

原创 spark 1.6.0 core源碼分析2 master啓動流程

源碼位置:org.apache.spark.deploy.master.Master.scala def main(argStrings: Array[String]) { SignalLogger.register(log)

原创 spark 1.6.0 core源碼分析4 worker啓動流程

worker的main方法,與master類似,創建sparkConf,參數解析,以及構造worker對象並創建rpcEnv用於對外或者本身的信息交互。 private[deploy] object Worker extends Log

原创 sqoop 處理換行符 \n 和\r 等特殊符號處理

  公司大數據平臺ETL操作中,在使用sqoop將mysql中的數據抽取到hive中時,由於mysql庫中默寫字段中會有換行符,導致數據存入hive後,條數增多(每個換行符會多出帶有null值得一條數據),導致統計數據不準確。因爲sqoo

原创 ERROR YarnScheduler: Lost executor

執行腳本出現: 15/07/30 10:18:13 ERROR cluster.YarnScheduler: Lost executor 8 on myhost1.com: remote Rpc client disassociated

原创 spark 1.6.0 core源碼分析6 Spark job的提交

本節主要講解SparkContext的邏輯 首先看一個spark自帶的最簡單的例子:object SparkPi { def main(args: Array[String]) { val conf = new Spa

原创 hadoop namenode進程參數調整

修改hadoop-env.sh添加     vi $HADOOP_HOME/conf/hadoop-env.sh export HADOOP_NAMENODE_OPTS="-Xmx16384m -Xms4096m -Xmn2048m -