DataWorks 全新發布:增強分析/數據建模個人版等新能力

阿里雲ODPS系列產品以MaxCompute、DataWorks、Hologres爲核心,致力於解決用戶多元化數據的計算需求問題,實現存儲、調度、元數據管理上的一體化架構融合,支撐交通、金融、科研、等多場景數據的高效處理,是目前國內最早自研、應用最爲廣泛的一體化大數據平臺。

DataWorks新重點能力介紹

  • 新產品-DataWorks增強分析
  • 新產品-DataWorks智能數據建模個人版
  • 新功能-DataWorks支持EMR on ACK(Spark)
  • 新功能-DataWorks數據集成入湖
  • 新功能-DataWorks數據治理中心支持EMR

新產品

新產品 - DataWorks增強分析

DataWorks與DataV-Card合作推出的AI增強分析產品,一站式完成從數據查詢、分析、可視化、共享的完整鏈路。1分鐘即可形成數據報告,幫助互聯網、金融、政務等各個行業客戶表達數據觀點,講好數據故事。

應用場景:

  • 簡化程序,降低成本: 以往數據分析工作流中,從數據倉庫取數查詢、到數據可視化、數據共享,需要要橫跨多個產品,致使用戶使用步驟繁瑣,產品學習成本高。
  • 海量數據查詢: 基於MaxCompute等計算引擎強大的分析計算能力,DataWorks可直接針對海量數倉數據進行SQL取數查詢,分析結果同時在DataWorks增強分析中進行可視化,形成數據「報告」並進行結果共享,極大提高了企業數據分析的效率。

功能特性:

  • 數據查詢: 基於MaxCompute等具有強大分析計算能力計算引擎,支持用戶面向海量數倉數據進行SQL取數查詢,具有追求極致簡便、輕量化等特點。
  • 數據卡片: 卡片內置常見圖表,詞雲等組件。其作爲數據運行結果的可視化資產,支持用戶將觀點備註至數據卡片中,形成專屬數據可視化知識庫,具有個性化,持久化等特點。
  • 數據報告: 由多個數據卡片組成的數據可視化報告可以調整卡片順序,挑選合適的報告主題。報告鏈接適配不同的展示需求,支持各行業用戶表達自身數據觀點,講好數據故事,具有靈活性,多樣化等特點。

產品demo演示 - DataWorks增強分析

以公共數據集爲例,瀏覽數倉數據進行SQL取數查詢——開啓DataWorks增強分析,對於查詢數據結果經過圖表,主題等調整,保存爲可視化的數據卡片——卡片備註自身數據靈感,挑選數據卡片搭建數據報告,形成專屬個人知識庫——數據報告一鍵分享。

點擊觀看<增強分析>:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/428094107707.mp4

新產品 - DataWorks智能數據建模個人版

DataWorks智能數據建模產品,從數倉規劃、數據標準、維度建模、數據指標四個方面,以業務視角對業務的數據進行詮釋,讓數據倉庫的建設向規範化,可持續發展方向演進。產品內置零售電子商務數據倉庫行業模型模板,個人可以一鍵導入模板,DataWorks智能數據建模個人版6個月60元,開通後可以免費獲取零售模型模板,並按照文檔進行學習操作 

應用場景:

  • 找數用數: 解決業務指標出現“同名不同義,同義不同名”,業務找數難,找到的數不會不敢用,從而導致業務無法通過數據決策任務等用戶痛點,並且解決數據異常,無法快速定位等業務問題。
  • 降低成本: 數倉建模啓動初期工作量巨大,人力成本高;線下建模效率低,缺少合適的工具;模型設計與數據研發、數據查找、數據消費工作脫節等痛點針對性解決。

功能特性:

  • 與企業版功能一致: 數倉分層/維度建模/數據指標等功能與企業版功能均無區別,僅限主賬號使用,爲用戶個人學習建模提供服務。
  • 內置免費行業模型模版: 提供免費零售電子商務模型模板,數倉建模理論與實踐結合,爲用戶個人學習數倉建模提供便利,提升學習效率。
  • 與數據開發流程集成: 一站式模型設計與數據開發,多種建模方式,爲用戶個人快速完成多引擎模型物化與模型架構圖繪製,自動生成ETL代碼。

產品demo演示 - 基於零售電商模板實操流程

登錄阿里雲官網打開DataWorks智能數據建模尋找行業模型模板——載入模板,查看數倉分層查看數據域,查看數據集市和主題域——在維度建模中可以看到從模板導入的模型。也可選擇創建模型,抑或通過代碼模式來修改模型——將模型與數據開發打通,通過模型物化的物理表可以自動生成模型對應的ETL代碼。

點擊觀看<智能個人數據建模>:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/428093791082.mp4

新功能

新功能 - DataWorks支持EMR on ACK(Spark)

存量已適配EMR on ECS(DataLake/Custom)以及開源

應用場景:

集羣切換或者雙跑可以進行任務的無縫遷移: 如果用戶之前用的是ECS集羣,想切換成ACK集羣,或者兩種集羣同時運行,Spark任務都可以平滑的運行在這兩種集羣之上。

大數據的開發調度、分析和治理: 只需要開通一個DataWorks,就可以形成這個大數據的全家桶的生態。數據集成模塊可以實現數據入戶、數據開發和調度、數據分析和治理等等,一應俱全,可以完成需要多個開源組件才能實現的產品功能,來助力企業的數倉團隊實現研發的提效和體驗的提升。

功能特性:

DataWorks適配EMR on ACK(Spark)具有以下特性

  • 節省成本:

根據ACK容器服務彈性能力按需靈活調整計算資源 ,若之前已保有ACK服務支撐在線服務和應用,那麼本次就無需爲大數據引擎單獨購買ACK;

EMR Spark集羣部署在ACK容器服務中,在創建EMR集羣直接選擇已經有的ACK,實現大數據服務和在線應用程序共享集羣資源 ;

ACK容器服務本身具備良好彈性擴展能力,無論是水平、定時還是垂直伸縮,都能夠通過豐富的彈性擴容方案來充分應對計算高峯期,整體達到資源合理利用、節省成本的效果。

  • 簡化開發,穩定調度:

專注Spark原生開發模式,無需關心底層集羣差異 ;

支持多種調度週期,提供超大規模穩定調度,每日可以支撐千萬量級的實力調度,並提供豐富的任務運維手段幫助用戶及時處理任務執行異常,併發送相應監控告警;

基於ECS Spot搶佔式實例進行調度適配與優化,本次DataWorks適配Spark集羣,根據ACK搶佔式實例做了專門的調度優化。

  • 事前檢查,事後治理:

DataWorks數據治理中心提供豐富檢查項,融入大數據開發流程,並且涵蓋研發、存儲、計算等多個方面的治理建議,形成了可量化的健康分指標,可以幫助企業在整個大數據過程中進行持續治理優化。

DataWorks相比開源大數據組件優勢

DataWorks作爲阿里雲一站式開發和管理平臺,是一款雲上全託管產品,可以即開即用,無需像開源一樣經過前期產品部署、環境部署等繁瑣的流程。DataWorks相比開源具有以下幾點優勢:

數據集成 (DataX / Sqoop) :

  • 基於DataX構建離線同步鏈路
  • 基於Flink構建實時同步鏈路
  • 封裝多樣化數據同步解決方案:提供多樣化數據同步解決方案,覆蓋整庫同步、一次性全量同步、週期性增量同步等場景
  • 數據通道豐富,配置鏈路簡單,網絡方案完備:在各種數據類型之間構建數據同步通道,讓數據工具不再複雜和繁瑣。

開發與調度(DolphinScheduler / Airflow):

  • 豐富的原子任務類型  DataWorks面向各種計算引擎提供多樣化的任務類型
  • 智能Web IDE + 可視化工作流編排:開發者可以通過可視化拖拽方式快速構建任務運行工作流,通過智能Web IDE高效編寫任務代碼
  • 細粒度調度計劃:對任務配置靈活的調度計劃,無論是調度頻率、重跑策略、複雜場景的依賴關係等等,都提供了非常完善和細緻的功能;
  • 全局運維大屏 & 單任務運維詳情:任務上線以後,還可以通過運維大屏和運維手段來監控和處理運行的情況。
  • 智能基線及時捕捉生產鏈路的異常
  • 數據質量功能—嚴格監控控制髒數據污染下游

數據治理(Atalas等):

  • 全面元數據納管(技術/業務/操作元數據等)
  • 支持系統自動解析/用戶自助上報數據血緣
  • 數據目錄加強數據管理/提升找數效率
  • 提供健康分量化體系、多維評估治理成效
  • 敏感數據有效識別與保護等這一系列豐富產品功能和生態來形成組合拳的效果

新功能 - DataWorks數據集成入湖

離線及實時同步數據至OSS/Hive

應用場景:

運維層面: 解決flink/spark streaming/kafka等運維優化調優,湖文件的管理:compaction, 清理歷史文件, 清理過期分區,整個作業的實施性和高吞吐保障,開發/調試/部署/運維全生命週期等等都需要用戶管理,運維難度大的痛點。

學習成本: 降低數據庫binlog多樣性解析需要專業知識儲備,任務運維管理,flink、spark、kafka等技術引擎用戶學習成本。

功能特性:

DataWorks數據集成入湖OSS具有以下特性

  • MySQL整庫同步至Hive: 支持實例模式、全量數據與增量過濾,增量過濾靠增量條件拉取增量,增量條件做出MySQL的VR條件過濾數據,其數據可以設置同步週期,用戶也可以按照需求拉取數據。
  • 上手簡單: 全白屏嚮導化操作 ,支持用戶直觀入湖同步配置。
  • 元數據自動打通: 與阿里雲DLF深度打通融合 ,數據可以在入湖同步時自動注入DLF中,無需用戶人爲干預。
  • 實時同步: 支持數據實時同步至OSS湖中,實現秒級延遲 ,並且支持用戶同步過程中進行數據處理。

DataWorks入湖OSS能力支持的鏈路特性

  • MySQL實時入湖OSS:

支持MySQL數據增量實時入湖,秒級延遲

支持MySQL歷史存量數據離線入湖,可以控制同步速率,避免影響源端業務

支持MySQL實例級別配置任務,同時同步一個實例下多庫多表

支持按照正則感知MySQL端的庫表變化,將增加的庫表自動加入OSS湖端

支持OSS湖端自動建立元數據表

支持對接阿里雲DLF,入湖元數據自動導入,實時可查

支持自定義OSS湖端存儲路徑

支持OSS湖端分區按日期自定義賦值

  • Kafka實時入湖OSS:

支持Kafka數據增量實時入湖,秒級延遲

支持數據中間進行簡單的數據處理,包括數據過濾、脫敏、字符串替換等

支持字段級別賦值操作

支持kafka非結構化的JSON數據,可以根據同步過程中實時的數據,進行動態增加字段

支持OSS湖端自動建立元數據表

支持對接阿里雲DLF,入湖元數據自動導入,實時可查

支持自定義OSS湖端存儲路徑

產品demo演示 - MySQL入湖OSS

DataWorks控制檯新建任務,輸入任務名稱,選擇來源和去向,——demo演示中選擇MySQL到OSS,選擇整個入湖,選擇mysql數據源,資源組,OSS數據源,然後進行聯通測試。——測試完後,可以進入整個任務配置中,在任務配置中選取的來源需要同步表,選擇外在存儲路徑,可以自動勾選是否同步到DIF中——確定之後建立一個OSS的分區。演示demo中按時間分區,配置運行中高級參數——點擊完成配置整個任務配置完成

點擊觀看<數據入湖>:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/427486205092.mp4

新功能 - DataWorks 數據治理中心支持EMR

湖倉一體數據治理能力評估與優化

應用場景:

面向數據體量高速增長背景下,所需要完成的各類增效降本的治理場景,用戶可通過DataWorks數據治理中心,面向存儲、計算維度進行治理,系統提供數據計算任務優化、數據存儲優化等治理功能,可幫助用戶持續分析和優化數據存儲及加工計算成本。

功能特性:

DataWorks數據治理中心 on EMR 具有以下特性

  • 綜合型治理健康分評估: 基於阿里雲E-MapReduce及DLF銜接, 形成衡量全局、團隊及個人的數據治理健康體系,讓用戶以統一的標準來明確數據治理的現狀與需要達成的治理目標。
  • 多維度治理問題發現: 綜合性的治理健康系統覆蓋研發、存儲、安全、質量等多治理維度,並提供各維度下內置治理項規則,讓用戶持續發現同步任務、調度任務、數據表的各類問題並解決。
  • 主動式治理問題攔截: 深度打通DataWorks數據開發鏈路, 在開發的任務提交、發佈環節,主動幫助用戶發現潛在數據治理問題,及時進行問題預防,實現數據治理與數據開發流程的融合,

產品demo演示 - 基於EMR進行數據成本優化場景實操

通過DataWorks控制檯進入數據治理中心,瞭解總體治理健康分數及各維度健康情況——通過治理中心使用分析查看數據鏈路對於各類資源的總體消耗及數據調度任務的資源明細,在資源的明細裏能針對EMR各類型任務去進行一個篩選,來查看具體資源消耗情況。——重點關注有大量資源異動消耗的任務,切換知識庫查看系統當前支持的數據治理項,發現對應治理問題——定位問題進行事前檢查,配置管理選擇到對應工作空間,一鍵開啓對應智力檢查項——對於檢查無法通過,攔截任務的提交,點擊操作檢查具體查看不符合治理規範內容,從而進行修復。

點擊觀看<數據治理emr>:https://cloud.video.taobao.com/play/u/null/p/1/e/6/t/1/427483369405.mp4

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章