MaxCompute Studio數據開發工具的使用

MaxCompute Studio簡介

MaxCompute Studio在IntelliJ IDEA的基礎上提供以下功能:

  • SQL編輯器(SQL Editor):提供SQL語法高亮、代碼補全、實時錯誤提示、本地編譯、作業提交等功能。
  • 項目空間瀏覽器(Project Explorer):連接MaxCompute項目空間,瀏覽項目空間表結構、自定義函數、資源文件。
  • 作業瀏覽器(Job Explorer):瀏覽、搜索MaxCompute的歷史作業信息。
  • MaxCompute控制檯(MaxCompute Console):集成了MaxCompute客戶端,可以輸入和執行MaxCompute客戶端命令。
  • Studio集成了MaxCompute Tunnel工具,可以支持本地數據的上傳和下載,更多詳情請參見導入並導出數據。等。

更多MaxCompute Studio的介紹見:認識MaxCompute Studio

MaxCompute Studio開發環境的構建具體可以見文章:MaxCompute基礎開發環境搭建 。

常用功能使用

  • MaxCompute Studio相關設置
  • MaxCompute Studio開發界面
  • 連接MaxCompute客戶端
  • 管理MaxCompute數據和資源
  • MaxCompute SQL的開發、編譯與執行
  •  使用MaxCompute Studio開發Java程序

MaxCompute Studio相關設置

打開MaxCompute Studio的設置頁面。Mac環境下位於: IntelliJ IDEA > Perferences,如下:

針對這裏的SQL的設置中,編譯器模式可選:單句模式或腳本模式。其區別在於:

  • 單句模式(Statement Mode):在該模式下,編譯器將SQL文件中的單條語句作爲單元進行編譯、提交。
  • 腳本模式(Script Mode):在該模式下,編譯器將整個SQL文件作爲單元進行編譯、提交。 腳本模式有利於編譯器和優化器最大程度地優化執行計劃,提高整體執行效率。

MaxCompute Studio開發界面

MaxCompute Studio包含三個開發界面,分別是:SQL編輯器(SQL Editor),項目空間瀏覽器(Project Explorer)和作業瀏覽器(Job Explorer),顯示如下:

這三個開發界面的主要功能如下:

  • SQL編輯器(SQL Editor):提供SQL語法高亮、代碼補全、實時錯誤提示、本地編譯、作業提交等功能。
  • 項目空間瀏覽器(Project Explorer):連接MaxCompute項目空間,瀏覽項目空間表結構、自定義函數、資源文件。
  • 作業瀏覽器(Job Explorer):瀏覽、搜索MaxCompute的歷史作業信息。

連接MaxCompute客戶端

MaxCompute中集成了MaxCompute的客戶端,可以使用如下的方式打開一個項目空間的客戶端:

管理MaxCompute數據和資源

包括查看錶和函數,導入導出數據和可視化管理表三個部分。

1. 查看錶和函數

在Project Exploer視圖中,右鍵單擊表名,選擇Show Table Detail可以查看錶的詳細信息:

同樣可以查看UDF相應的代碼: 

2. 導入導出數據

MaxCompute Studio可以將CSV、TSV格式的本地數據文件導入至MaxCompute表中,也可將MaxCompute表中的數據導出到本地文件。 

使用前提:

  • 導入導出數據使用MaxCompute Tunnel服務,因此要求MaxCompute Studio中添加的MaxCompute項目必須開通或配置了Tunnel服務。
  • 導入導出使用的賬號必須具備對應的MaxCompute表操作權限。

1. 導入數據

在Project Explorer頁面的table&view列表下,右鍵單擊需要導入數據的表名,選擇Import data Into table 。

配置參數說明如下:

  • Input Files:導入數據文件的本地路徑。
  • File charset:導入數據文件的編碼格式。
  • Column Separator:列分隔符。
  • Record Limit:最大行數。
  • Size(MB) Limit:上傳數據最大值。
  • Error Record Limit:容錯行數。
  • Include Column Header:是否導入列標題。

單擊OK,完成數據導入。提示Import Data Success,表示數據導入成功,可在表中查看導入的數據。

2. 導出數據

打開輸入導出的界面:

數據導出時的相關配置與數據導入相同:

3. 可視化表管理

1. 新增表

在Project Explorer頁面,右鍵單擊項目下的Tables & View,選擇Create a new table。

2. 修改表

在Project Explorer的table&view列表下,右鍵單擊需要修改的表,選擇Open table editor。

3. 刪除表

MaxCompute SQL的開發、編譯與執行

包括SQL Script文件的創建、編譯SQL和執行SQL三部分。

1. SQL Script文件的創建

在創建MaxCompute Studio項目時,勾選了SQL Support:

會自動在項目中創建script目錄,直接在該目錄下進行創建SQL腳本文件即可:

如果已有script文件,此時的創建項目方式可參考:創建MaxCompute Script Module

2. 編譯SQL

在SQL腳本提交前,您可以根據自己的需要設置相關編譯參數。MaxCompute Studio提供了豐富的功能,可以在編輯器上方的工具欄中快速設置。

設置參數主要分爲以下3種:

  • 編輯器模式:
    • 單步模式:將提交的腳本按英文分號(;)分隔,逐條提交到MaxCompute服務端執行。
    • 腳本模式:將整個腳本一次性提交到MaxCompute服務端,由服務端提供整體優化,效率更高。推薦您使用此模式。
  • 類型系統:類型系統主要解決SQL語句的數據類型兼容性問題。分爲以下3種類型:
    • 舊有類型系統:原有MaxCompute的類型系統。即MaxCompute 1.0數據類型版本。
    • MaxCompute 類型系統:MaxCompute 2.0引入的新的類型系統。即MaxCompute 2.0數據類型版本。
    • Hive 類型系統:MaxCompute 2.0引入的Hive兼容模式下的類型系統。即Hive兼容數據類型版本。
  • 編譯器版本:
    • 默認編譯器:穩定版本。
    • 實驗性編譯器:包含編譯器最新特性。

3. 執行SQL

在SQL任務運行前,IDEA會向您提示預估的SQL費用。確認費用後,在Confirmation對話框中,單擊OK。

執行完畢後,結果顯示形式如下:

使用MaxCompute Studio開發Java程序

這部分內容比較多,單獨一篇文章進行說明:https://blog.csdn.net/yitian_z/article/details/105544937(更新中)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章