DataWorks

DataWorks介紹

DataWorks(數據工廠,原大數據庫開發套件)是阿里雲數加重要的PaaS平臺產品,它提供全面託管的工作流服務,一站式開發管理界面,幫助企業專注於數據價值的挖掘和探索。
它是一套基於MaxCompute(原ODPS)的DW解決方案,他集成了阿里多年的DW實施經驗,提供數據集成、處理、分析和管理功能,併爲代碼開發、調試、發佈、運維、監控和管理提供了一個高效、安全的離線數據開發環境。

全面託管的調度

強大的調度能力,千萬級別的任務調度;
支持按照時間、依賴關係的任務觸發機制;
支持每日任務按照DAG關係準確、準時運行;
支持分鐘、小時、天、周和月多種調度週期配置;
完全託管的服務,無需關心調度服務器資源問題;
租戶之間提供隔離,保證不同租戶之間的任務不會互相影響。

支持多種任務類型

支持數據同步、SHELL、MaxCompute SQL、MaxCompute MR等多種任務類型,通過任務之間的相互依賴完成複雜的數據分析處理。

可視化開發

提供可視化的代碼開發、工作流設計器頁面,無需搭配任何開發工具,簡單的拖拽和開發就可以完成複雜的數據分析任務。
只要有瀏覽器、有網絡,便可隨時隨地進行開發工作。

監控告警

運維中心提供可視化的任務監控管理工具,支持以DAG圖的形式展示任務運行時的全局情況;
可方便地配置短信、郵件報警,任務發生錯誤可及時通知相關人員,保證業務正常運行。

DataWorks產品特點

基於MaxCompute:一套基於Max Compute(原ODPS)的數據開發、數據管理工具。
清晰可見的血緣:基於統一的元數據服務提供數據資源管理視圖、可視化的數據血緣分析、清晰展現數據表的輸入與輸出,方便追溯其處理過程。
一站式數據開發:提供數據同步、數據加工、一鍵發佈、調度引擎等一站式大數據開發服務。
可視化開發界面:面向數據開發者、數據運維人員,項目管理者提供了可視化的開發界面。

產品優勢

1、專業
解決數據同步、開發與運維問題。全面提升大數據加工的效率,降低成本。
2、易用
屏蔽雲端複雜性,輕鬆完成雲端數據同步。靈活撰寫數據處理代碼,極簡任務管理。
3、大數據處理能力
與MaxCompute(原ODPS)完美融合,釋放其處理能力。實現數據價值的深度挖掘與業務的數據化運營。

DataWorks基本概念

組織與項目空間

組織

組織是大數據平臺特有概念,一個公司開通大數據平臺服務就創建一個組織,一個組織內創建多個項目空間。組織之間互相隔離,一個賬號只能所屬一個組織。元數據按組織隔離,只能查看本組織下的表元數據。

項目空間(project)

項目空間時數據開發中最基本的組織對象,類似於傳統數據庫的database。數據開發的項目空間,是進行多組織隔離和訪問控制的主要邊界,也是用戶管理表(table)、資源(resource)、自定義函數(UDF)、作業(job)、節點(node)、工作流(workflow)、權限等的基本單元。

任務(task)

任務是指定義對數據執行的操作。每個任務使用0或0個以上的數據表(數據集)作爲輸入,生成一個或多個數據表(數據集)作爲輸出。
如:
使用數據同步節點任務,將數據從RDS複製到MaxCompute。
使用MaxCompute SQL節點任務運行MaxCompute SQL來進行數據的轉換。
使用工作流任務,通過內部幾個不同的SQL內部節點完成一系列的數據轉換。

工作流(WorkFlow)

工作流是一個DAG圖(有向無環圖),其描述了作業中多個節點之間的邏輯(依賴關係)和規則(運行越是)。

節點(Node)

節點屬於工作流的字對象,也稱爲任務,是數據開發數據處理和分析過程的最基本單元,每個任務對應DAG圖中的一個節點,其可以是一個SQL Query、命令和MapReduce程序。

依賴關係(Dependency)

依賴關係是描述兩個或多個節點/工作流之間的語義連接關係,其中上游節點/工作流的運行狀態可以影響下游節點/工作流的運行狀態,反正則不成立。

實例(Instance)

在調度系統中的任務經過調度系統、手動觸發運行後會生成一個實例,實例代表了某個任務在某時某刻執行的一個快照,實例中會有任務的運行時間、運行狀態、運行日誌等信息。

資源(Resource)

資源是數據開發的特有概念,用戶可以上傳本地自定義的JAR或文件作爲資源,在節點運行時調用,如,在數據開發中運行MapReduce程序,需要將MapReduce生成的JAR包上傳到平臺後,通過節點調用所上傳的資源來運行此MapReduce程序。

函數(Function)

MaxCompute提供了Java的編程接口來開發用戶自定義函數。在大數據平臺數據開發套件中指出Java UDF。
說明:資源與函數都是MaxCompute的概念,在DataWorks中,可以通過界面管理資源、函數。如果通過MaxCompute的其他方式進行資源、函數管理,則無法在DataWorks中進行相關的查詢。

DataWorks功能框架

DataWorks是底層基於MaxCompute(原ODPS)的集成開發環境,包括數據開發、數據管理、數據分析、數據挖掘和管理控制檯。其中數據分析和數據挖掘屬於阿里雲大數據開發平臺高級組件。

大數據開發平臺功能模塊

組織管理

管理dataworks的項目空間。
管理dataworks的調度資源。
管理組織成員、權限、角色等

項目管理

配置項目屬性,包括基本屬性、數據源、計算引擎以及流程控制。
管理項目成員

數據開發

開發任務、腳本、配置調度
管理資源、函數等。

數據管理

找數據、權限管理
數據表管理

運維中心

任務管理,包括查看、編輯、運行
任務的運維和監控,包括運行日誌、調度和恢復以及監控報警

DataWorks角色隔離

組織管理員

指組織的管理者,可新建計算引擎、新建項目空間、新建調度資源、添加組織成員、爲組織成員賦予項目管理員角色、配置數據類目等。即阿里云云賬號的角色,此角色不能賦予其他賬號。

項目管理員

指項目空間的管理者,可對該項目空間的基本屬性、數據源、當前項目空間計算引擎配置和項目成員等進行管理,併爲項目成員賦予項目管理員、開發、運維、部署、訪客角色。對應maxcompute的數據權限爲project/table/fuction/resource/instance/job/volume/offlinemodel/package的所有權限,對應maxcompute的role_project_admin角色

開發

開發角色的用戶能夠創建工作流、腳本文件、資源和UDF,新建/刪除表,同時可以創建發佈包,但不能執行發佈操作。maxcompute的數據權限爲project/fuction/resource/instance/job/volume/offlinemodel/package/table的所有權限,對應maxcompute的role_project_dev角色

運維

運維角色的用戶由項目管理員分配運維權限;擁有發佈及線上運維的操作權限,沒有數據開發的操作權限。maxcompute的數據權限爲project/fuction/resource/instance/job/offlinemodel的所有權限,擁有volume/package的read權限和table的read/describe權限。maxcompute角色爲role_project_pe.

部署

部署角色與運維角色相似,但是它沒有線上運維的操作權限。默認無maxcompute的數據權限,對應maxcompute的role_project_deploy角色

訪客

訪客角色的用戶只具備查看權限,沒有權限進行編輯工作流和代碼等操作。默認無maxcompute數據權限,maxcompute的角色爲role_project_guest.

安全員

安全管理員僅在數據保護傘中用到,用於敏感規則配置,數據風險審計等。默認無maxcompute數據權限,maxcompute的角色role_project_security.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章