雲小課|DGC數據開發之基礎入門篇

閱識風雲是華爲雲信息大咖,擅長將複雜信息多元化呈現,其出品的一張圖(雲圖說)、深入淺出的博文(雲小課)或短視頻(雲視廳)總有一款能讓您快速上手華爲雲。更多精彩內容請單擊此處。

摘要:歡迎來到DGC數據開發的世界,花十分鐘跟着雲小課一起學習雲數據開發。本文主要介紹DGC數據開發的基本概念、優勢、應用場景及數據開發的示例,幫助您快速掌握智能數據開發。

本文分享自華爲雲社區《【雲小課】EI第36課 DGC數據開發之基礎入門篇(10分鐘掃盲)》,原文作者:閱識風雲

DGC數據開發簡介

數據湖治理中心 (Data Lake Governance Center,簡稱DGC) ,是具有智能數據管理能力的一站式治理運營平臺,包含數據集成、數據開發、規範設計、數據質量監控、數據資產管理、數據服務、數據安全等功能。DGC數據開發又稱數據湖工廠(Data Lake Factory,簡稱DLF),它可管理多種大數據服務,提供一站式的大數據開發環境、全託管的大數據調度能力,極大降低用戶使用大數據的門檻,幫助用戶快速構建大數據處理中心。

使用數據開發模塊,用戶可進行腳本開發、作業開發、作業調度、運維監控等操作,輕鬆完成整個數據的處理分析流程。

DGC數據開發的優勢

應用場景

雲上數倉快速搭建

通過數據集成模塊將線下數據遷移到華爲雲上,將數據集成到華爲雲大數據服務中,並在數據開發模塊中進行數據開發。

數據分析業務流自動化

通過數據開發模塊實現數據導入、清洗、機器學習、數據回傳、報表生成端到端流程自動化,把業務搬上自動化流水線。

複雜BI報表生成自動化

通過數據開發模塊的腳本開發、數倉管理和作業開發功能,快速開發報表所需的腳本以及靈活自動生成BI報表。

海量日誌輕鬆分析挖掘

通過DIS將日誌數據接入到OBS存儲(或者Cloud Search服務),然後通過數據開發模塊服務編寫數據開發腳本和數據挖掘腳本,實現海量日誌分析和挖掘。

DGC數據開發示例

本節課我們將通過DLF的Hive SQL任務,定期執行腳本統計表數據,當表數據大於某個值發送通知爲例進行介紹。

Step1:登錄DGC控制檯

Substep1:訪問華爲雲管理控制檯。

Substep2:單擊管理控制檯左上角的符號,選擇區域和項目。

Substep3:在首頁“服務列表”中,選擇“大數據 > 數據湖治理中心DGC”,進入DGC服務的概覽頁面。

Step2:創建數據連接

數據連接用於保存DLF數據實體的連接信息,本示例需要先創建MRS Hive的數據連接,其中綁定的Agent由CDM集羣提供。

Substep1:在DGC控制檯的相應的工作空間,單擊“管理中心”,進入數據連接頁面。

Substep2:單擊“創建數據連接”,彈出“創建數據連接”頁面,配置如下所示。

Substep3:單擊“測試”,測試數據連接的連通性。如果無法連通,數據連接將無法創建。

Substep4:單擊“確定”,創建數據連接。

Step3:創建和開發腳本

數據連接“mrs_hive”創建完成後,需要在線開發SQL腳本,用於查詢MRS Hive表“hive_dt”的信息。

Substep1:在DGC控制檯的頂部導航欄,選擇對應工作空間,單擊“數據開發 > 腳本開發”。

Substep2:單擊“新建SQL腳本 > Hive”,進入腳本開發頁面。

Substep3:選擇腳本的“數據連接”爲“mrs_hive”、“數據庫”爲“hive_db”,輸入如下SQL語句。

select * from hive_dt;

Substep4:單擊“運行”,查詢數據表“hive_dt”,執行結果如下所示。

Substep5:單擊保存腳本。

Substep6:單擊保存並提交版本,提交後的腳本在下一步的作業中使用。

Step4:創建和開發作業

腳本“hive_sql”開發完成後,需要通過作業進行編排和調度,實現定期執行腳本,統計MRS Hive表數據的任務。

Substep1:在DGC控制檯的頂部導航欄,選擇對應工作空間,單擊“數據開發 > 作業開發”。

Substep2:單擊“新建作業”,彈出“新建作業”頁面,配置如下所示。

Substep3:單擊“確定”,新建作業。

Substep4:進入作業開發頁面,拖動Hive SQL節點任務到畫布並單擊,在右側的“節點屬性”頁面配置如下所示。

Substep5:單擊右側的“調度配置”頁籤,配置調度信息,如下所示。

Substep6:單擊保存作業。

Substep7:單擊保存並提交版本。

  • 提交後的作業可以在作業監控頁面查看作業的運行情況和結果;
  • 作業每次運行,都會對應產生一次作業實例記錄。在實例監控頁面,可以查看作業的實例信息。

Step5:配置通知任務

作業“job_hive_sql”開發完成後,配置作業的通知任務,當作業運行異常時向相關人員發送通知。

Substep1:登錄DGC控制檯,進入數據開發模塊。

Substep2:單擊“運維調度 > 通知管理”。

Substep3:在作業的“操作”列,單擊“編輯”,彈出“編輯通知”頁面,配置如下所示。

Substep4:單擊“確定”,完成作業通知配置任務。

Step6:查看作業和實例運行記錄

作業的調度任務啓動後,可以查看作業和實例任務的運行記錄與結果。

Substep1:登錄DGC控制檯,進入數據開發模塊。

Substep2:單擊“運維調度 > 作業監控”。

Substep3:單擊作業名稱,查看作業的詳細運行情況。

Substep4:單擊“運維調度 > 實例監控”。

Substep5:單擊作業名稱前的,查看作業運行產生實例的詳細運行情況。

----結束

好了,本期雲小課就介紹到這裏,學習完本期課程,您是否覺得數據開發竟然這麼簡單呢。哈哈,快去登錄華爲雲數據湖治理中心Console體驗一下吧,想要了解更多數據開發的知識猛戳這裏。

 

點擊關注,第一時間瞭解華爲雲新鮮技術~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章