簡介：本文由阿里巴巴技術專家周凱波（寶牛）分享，主要介紹如何跑通第一個SQL。

一、SQL的基本概念

1.SQL 分類

SQL分爲四類，分別是數據查詢語言（DQL）、數據操縱語言（DML）、數據定義（DDL）語言和數據控制語言（DCL）。今天將介紹前三種語言的使用。

接下來介紹幾個基本概念。

2.SQL 開發

● Scripts，即SQL文本。在SQL文本里面可以寫上文介紹的前三種語言；
● Schema，即元數據。SQL裏面需要使用的表和函數，是通過Schema進行定義的；
● Artifacts，即UDF Jar包；

3.Catalog

在 Flink SQL裏，Catalog是管理元數據的。Catalog通過Catalog.DB.Table來定位一張表。除了DB和Table，Catalog還能註冊函數，如UDF、UDTF和UDAF。

在Flink Catalog裏，有三種Catalog實現：

● 第一個是GenericInMemoryCatalog，是內存版的Catalog。平常在使用 Flink SQL的時候，默認是內存版的Catalog。當程序運行結束，第二次重新運行的時候，會重新生成一個Catalog實例。
● 第二個是HiveCatalog，Flink裏比較好的支持了HiveCatalog，可以從Hive HMS裏讀取元數據，同時也可以往Hive裏註冊表，寫數據到Hive裏面去。
● 第三個Catalog是 VVP平臺裏面開發的Catalog，即VvpCatalog，它實現了Flink Catalog的接口，底層是使用的數據庫。

4.Deployment

Deployment是一個作業的描述，目前有兩種任務類型，JAR和SQL。

Deployment上有升級策略（Upgrade strategy）和恢復策略（Restore strategy）。Upgrade strategy是指Deployment運行後，用戶可以對Deployment的參數進行修改，這個修改如何影響Deployment的運行就是由不同的升級策略決定的；Restore strategy 指啓動 Flink任務時，是否從 Savepoint/Checkpoint進行恢復就是不同的恢復策略。

Flink的版本和配置，常用的Flink的參數都可以在這裏進行配置。例如：Task Managers 數量，Jobmanager和Taskmanager 的 CPU 和內存等。

Deployment上除了作業描述外，還有期望狀態和實際狀態。期望狀態是指用戶所期望的目標狀態，例如當要將運行中的作業停止時，期望狀態就是Canceled；操作完成的實際運行狀態就是實際狀態。

總的來說，Deployment是一個任務的描述模板。VVP平臺內部的狀態機會根據Deployment的期望狀態和實際狀態來控制作業的實際運行。

5.Job

Deployment啓動時會生成一個Job，這個Job對應一個具體的 Flink Job。同一時間，一個Deployment上只會有一個正在運行的Job。

二、SQL的語法說明

1.語法說明

首先看下圖的語句，分別是創建源表和創建結果表。

下圖是註冊函數。函數的註冊分爲兩步，第一步上傳JAR包，然後在系統上可以勾選自動註冊；第二種是使用 Flink 語法進行手工註冊。

使用函數有兩種方式，第一是內置函數的使用，如下圖UPPER是 Flink 自帶的函數；第二種是自定義函數，像MyScalarFunc。

在VVP平臺裏，也支持 Flink 裏的Temporary Table，可以將它理解爲臨時表，只在當前會話週期內有效。在下圖例子中，我們創建了兩個Temporary Table，讀取datagen_source表中的數據，輸出到blackhole_sink表。

下圖是Temporary View的語法示例。前面兩段是一樣的臨時表；第三條語句是創建了一個tmp_view，它代表從Datagen_source的查詢。在Flink裏面Temporary View可以理解爲讓SQL的書寫變得更簡單，它不會對數據進行一個持久化，和數據庫裏面View概念是不一樣的。第四條語句是從 view裏面讀取數據並寫入到sink表裏。