背景

本文主要介紹了Spark SQL裏目前的CLI實現，代碼之後肯定會有不少變動，所以我關注的是比較核心的邏輯。主要是對比了Hive CLI的實現方式，比較Spark SQL在哪塊地方做了修改，哪些地方與Hive CLI是保持一致的。可以先看下總結一節裏的內容。

Spark SQL的hive-thriftserver項目裏是其CLI實現代碼，下面先說明Hive CLI的主要實現類和關係，再說明Spark SQL CLI的做法。

Hive CLI

核心啓動類是org.apache.hive.service.server.HiveServer2，啓動方式：

    try {
      ServerOptionsProcessor oproc = new ServerOptionsProcessor("hiveserver2");
      if (!oproc.process(args)) {
        LOG.fatal("Error starting HiveServer2 with given arguments");
        System.exit(-1);
      }
      HiveConf hiveConf = new HiveConf();
      HiveServer2 server = new HiveServer2();
      server.init(hiveConf);
      server.start();
    } catch (Throwable t) {
      LOG.fatal("Error starting HiveServer2", t);
      System.exit(-1);
    }

HiveServer2繼承CompositeService類，CompositeService類內部維護一個serviceList，能夠加入、刪除、啓動、停止不同的服務。HiveServer2在init(hiveConf)的時候，會加入CLIService和ThriftCLIService兩個Service。根據傳輸模式，如果是http或https的話，就使用ThriftHttpCLIService，否則使用ThriftBinaryCLIService。無論是哪個ThriftCLIService，都傳入了CLIService的引用，thrift只是一個封裝。

加入了這些服務後，把服務都啓動起來。

CLIService也繼承自CompositeService，CLIService 在init的時候會加入SessionManager服務，並且根據hiveConf，從 hadoop shims裏得到UGI裏的serverUsername。

SessionManager管理hive連接的開啓、關閉等管理功能，已有的連接會維護在一個HashMap裏，value爲HiveSession類，裏面大致是用戶名、密碼、hive配置等info。

所以CLIService裏幾乎所有的事情都是委託給SessionManager做的。

SessionManager內主要是OperationManager這個服務，是最重要的和執行邏輯有關的類，下面會具體說。

另外，關於ThriftCLIService，有兩個實現子類，子類只複寫了run()方法，設置thrift server相關的網絡連接，其他對CLIService的調用邏輯都在父類ThriftCLIService本身裏面。

實際上，ThriftCLIService裏很多事情也是委託給CLIService做的。

那麼上面大致是Hive CLI、Thrift server啓動的流程，以及幾個主要類的相互關係。

Spark SQL CLI

根據上面Hive CLI的邏輯，看看Spark SQL的CLI是怎麼做的。

Spark裏的HiveThriftServer2(這個類名看起來有點奇怪)繼承了Hive的HiveServer2，並且複寫了init方法，其初始化的時候加入的是SparkSQLCLIService和ThriftBinaryCLIService兩個服務。前者繼承了Hive的CLIService，有一些不同的邏輯；後者直接使用的是Hive的類，但傳入的是SparkSQLCLIService的引用。

SparkSQLCLIService內部，類似Hive的CLIService，有一個SparkSQLSessionManager，繼承自Hive的SessionManager。也有得到serverUsername的邏輯，代碼和CLIService是一樣的。

SparkSQLSessionManager複寫了init這個方法，裏面有Spark自己的SparkSQLOperationManager服務，繼承自Hive的OperationManager類。

可能上面這幾個類有點看暈了，本質上都是一些封裝而已，沒什麼大的區別。真正重要的是SparkSQLOperationManager這個類裏面，定義瞭如何使用Spark SQL來處理query操作。

SparkSQLOperationManager關鍵邏輯

Hive的CLI Operation父類有如下的子類繼承體系，代表hive cli會處理的不同操作類型：

上半部分ExecuteStatementOperation子類體系是實際和查詢相關的操作，下半部分是一些元數據讀取操作。SparkSQLOperationManager實際改寫的就是ExecuteStatementOperation子類的執行邏輯，而元數據相關的操作還是沿用hive本來的處理邏輯。

原本hive的ExecuteStatementOperation處理邏輯是這樣的：

  public static ExecuteStatementOperation newExecuteStatementOperation(
      HiveSession parentSession, String statement, Map<String, String> confOverlay, boolean runAsync) {
    String[] tokens = statement.trim().split("\\s+");
    String command = tokens[0].toLowerCase();

    if ("set".equals(command)) {
      return new SetOperation(parentSession, statement, confOverlay);
    } else if ("dfs".equals(command)) {
      return new DfsOperation(parentSession, statement, confOverlay);
    } else if ("add".equals(command)) {
      return new AddResourceOperation(parentSession, statement, confOverlay);
    } else if ("delete".equals(command)) {
      return new DeleteResourceOperation(parentSession, statement, confOverlay);
    } else {
      return new SQLOperation(parentSession, statement, confOverlay, runAsync);
    }
  }

ExecuteStatementOperation也分兩部分，HiveCommandOperation和SQLOperation。

不同的ExecuteStatementOperation子類最終由對應的CommandProcessor子類來完成操作請求。

那Spark是如何改寫ExecuteStatementOperation的執行邏輯的呢？

最核心的邏輯如下：

      def run(): Unit = {
        logInfo(s"Running query '$statement'")
        setState(OperationState.RUNNING)
        try {
          result = hiveContext.sql(statement)
          logDebug(result.queryExecution.toString())
          val groupId = round(random * 1000000).toString
          hiveContext.sparkContext.setJobGroup(groupId, statement)
          iter = result.queryExecution.toRdd.toLocalIterator
          dataTypes = result.queryExecution.analyzed.output.map(_.dataType).toArray
          setHasResultSet(true)
        } catch {
          // Actually do need to catch Throwable as some failures don't inherit from Exception and
          // HiveServer will silently swallow them.
          case e: Throwable =>
            logError("Error executing query:",e)
            throw new HiveSQLException(e.toString)
        }
        setState(OperationState.FINISHED)
      }

statement是一個String，即query本身，調用HiveContext的sql()方法，返回的是一個SchemaRDD。HiveContext的這段邏輯如下：

  override def sql(sqlText: String): SchemaRDD = {
    // TODO: Create a framework for registering parsers instead of just hardcoding if statements.
    if (dialect == "sql") {
      super.sql(sqlText)
    } else if (dialect == "hiveql") {
      new SchemaRDD(this, HiveQl.parseSql(sqlText))
    }  else {
      sys.error(s"Unsupported SQL dialect: $dialect.  Try 'sql' or 'hiveql'")
    }
  }

調完sql()後返回的是一個帶被解析過了的基礎邏輯計劃的SchemaRDD。後續，

logDebug(result.queryExecution.toString())

這一步觸發了邏輯執行計劃的進一步分析、優化和變成物理執行計劃的幾個過程。之後，

result.queryExecution.toRdd

toRdd這步是觸發計算並返回結果。這幾個邏輯在之前Spark SQL源碼分析的文章裏都提到過。

除了上面這部分，還有一些schema轉化、數據類型轉化的邏輯，是因爲Catalyst這邊，有自己的數據行表示方法，也有自己的dataType，而且schema這塊呢，在生成SchemaRDD的時候也轉化過一次。所以在返回執行結果的時候，需要有轉換回Hive的TableSchema、FieldSchema的邏輯。

以上說明了Spark SQL是如何把query的執行轉換到Spark SQL裏的。

總結

基本上Spark SQL在CLI這塊的實現很靠近Hive Service項目裏的CLI模塊，主要類繼承體系、執行邏輯差不多都一樣。Spark SQL修改的關鍵邏輯在CLIService內的SessionManager內的OperationManager裏，將非元數據查詢操作的query丟給了Spark SQL的Hive工程裏的HiveContext.sql()來完成，通過返回的SchemaRDD，來進一步得到結果數據、得到中間執行計劃的Schema信息。

全文完 :)

Spark SQL CLI 實現分析

背景

Hive CLI

Spark SQL CLI

總結

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Spark SQL CLI 實現分析

論文摘抄 - Infobright

常見計算框架算子層對比

Scala Learning(1): 使用Pattern Matching表達JSON

Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結