Apache 首次亞洲在線峯會: Workflow & 數據治理專場

背景

大數據發展到今天已有 10 年時間,早已滲透到各個行業,數據需
求越來越多,這使得大數據
業務間的依賴關係也越來越複雜,另外也相信做數據的夥伴肯定對如何治理數據也是痛苦之至,再加上現今雲原生時代的要求,怎麼能更好、更容易的處理大數據任務關係及更好的實現數據治理呢?
Apache  下與之 密切相關的項目有   Apache DolphinScheduler, Apache Atlas,  Apache Airflow Apache Oozie, 和 Apache Griffin  。此外我們也邀請到時下非常火的數據湖框架 Apache Hudi 社區的夥伴來分享《 基於 Apache Hudi 數據湖上的 Dolphin 調度器的實踐》,敬請關注 首先給大家介紹下 Apache 基金會年度盛會

                   ApacheCon

                                               @ 官方全球系列大會  


ApacheCon 是 Apache 軟件基金會(ASF)的官方全球系列大會,每年舉辦一次。作爲久負盛名的開源盛宴,是開源界最具期待的大會之一


自 1998 年開辦以來,ApacheCon 已經吸引了超過 350 個技術項目和不同社區參與其中,匯聚海內外的業內專家與老師,分享全球最新的技術動態與實踐,共同探討 "明天的技術",讓廣大的技術愛好者們看到各技術前沿,有哪些最新趨勢和進展,更好的升級自己的技術棧。


今年是組委會首次針對亞太地區舉辦 ApacheCon 在線大會:ApacheCon Asia。Asia 大會將來自中國、日本、印度、美國等海內外的 140+ 議題分爲大數據、IncubatorAPI / Microservice、互聯網、集成、開源文化等 14 個論壇。


關於 Workflow/Data Governance工作流和數據治理 論壇


工作流和數據治理將複雜的數據處理進行有序調度及處理,並在元數據、血緣關係和數據質量等方面進行管控。在 ASF 有多種個項目提供了多種數據工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多種元數據、數據質量的管理。在工作流和數據治理主題中大家不但會了解到一線用戶將這些 Apache 項目應用到具體項目當中的實踐經驗,而且會了解這些 Apache 項目生態的最新進展,同時也將展望數據調度和數據治理方面的願景。


出品人


郭煒  

Apache Member & Apache DolphinScheduler PMC 


8月7-8日議程亮點

@ Apache  


WORKFLOW/DATA GOVERNANCE

DolphinScheduler 調度工具在運營商的實踐 


分享嘉賓王興傑

時間8月7日 13:30


議題介紹:

我們選擇了 DolphinScheduler,一個更容易擴展、擁有良好容錯機制、社區活躍度非常高的開源調度系統。我們將介紹在聯通的使用 DolphinScheduler 調度解決辦法來面對 >10 萬級別日常調度任務。


嘉賓介紹:

王興傑

14 年畢業後開始從事軟件研發工作,7 年研發經驗,目前主要負責針對聯通大數據的調度系統的研發和遷移工作。



海量複雜任務調度利器 -- Apache DolphinScheduler


分享嘉賓:Qiang Guo

時間:8月7日 14:10


議題介紹:

Apache DolphinScheduler 是海量複雜任務穩定調度的場景需求下順勢而生的一款調度工具,本次議題將圍繞其穩定性、易用性等多個方面來介紹 DolphinScheduler。同時,我們也會帶來 2.0 - 微內核的架構設計,2.0 後,DolphinScheduler 的各個組件將以 SPI 的形式開放出去,用戶可以在這個基礎上快速實現自己的特性需求。


嘉賓介紹: 






Qiang Guo

Apache DolphinScheduler PMC,高級軟件工程師,擅長:網絡通信、大數據處理和計算


Airflow 深度實踐


分享嘉賓:吳璉

時間:8月7日 14:50


議題介紹:

基於 Airflow 平臺在上海數禾科技的真實案例,介紹 Airflow 在複雜場景下應用、運維以及定製開發的實踐:

複雜場景的挑戰: 

  1. 跨雲分佈式部署如何保障高可用;

  2. 多類型調度場景如何有效支撐;

  3. ETL 作業如何保障高可用;

  4. 調度治理如何開展;

  5. 如何做到最大自動化;

同時針對一些業務需求:

  1. 數據分析人員有大量的調度需求,DAG Python 腳本開發上手難度大

  2. 部門或者個人所屬的 DAG 並不想被其他部門人員編輯、查看和手動調度?

  3. DAG 中的作業上線審批效率低、工作量大,如何去提高效率去避免一些非規範化的操作?

    消息系統如何觸發作業跑批?

分享相應的優化方案: 

  1. DAG 配置可視化:界面配置 DAG 參數,後臺自動生成 DAG 文件。

  2. DAG 權限控制:分部門分 DAG 賦權,區分讀、寫、執行。

  3. 作業規範化監控:配置檢測規則去監控作業是否符合規則,執行相應的提示。

  4. 事件觸發插件:接收 Sensor 作業和 AMQP 等各類消息,觸發相應作業執行。


嘉賓介紹: 


吳璉

上海 DataSeed 信息技術大數據開發工程師,2年 airflow 使用、維護和開發經驗,對 airflow 有深刻理解,希望我的經驗和理解能爲 airflow 開源社區貢獻一份力量。



基於 Apache Hudi 的數據湖上的 Dolphin 調度器的實踐


分享嘉賓:Zhao Yuwei

時間8 月 7 日 15:30


議題介紹:

數據湖是一個企業級的數據管理平臺,用於分析不同類型的數據源。數據湖架構確保了多種數據源的整合,並支持多種數據模式,以確保數據的準確性。它可以滿足實時分析的需要,也可以作爲數據倉庫,滿足批量數據挖掘的需要。因此,我們需要一個高效、穩定且易於擴展的任務調度系統來協調數據湖的外部能力,如數據攝取、數據存儲、數據探索、數據發現、數據治理等。在這裏我將分享我們爲什麼選擇 Apache DolphinScheduler 作爲任務調度系統,以及我們如何讓數據用戶輕鬆地與數據湖互動,而不必關注太多的技術細節


嘉賓介紹:


Zhao Yuwei

從事 Hadoop 相關的開發工作,目前主要工作方向是任務調度系統的研發。



新一代大數據工作流調度平臺 -- Apache DolphinScheduler 的架構演變


分享嘉賓:Lidong Dai

時間:8 月 8 日 13:30


議題介紹:

主要包括以下六個部分:

第一,DolphinScheduler的介紹

第二,大數據工作流調度平臺的痛點

第三,DolphinScheduler的優勢

第四,從1.2版到1.3版的架構演變

第五,架構2.0的路線圖 & Roadmap

最後,分享一些用戶案例


嘉賓介紹:


LIDONG DAI

Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大數據經驗,擅長大型數據平臺建設和優化



基於 Apache DolphinScheduler 的數據質量服務實踐


分享嘉賓:孫朝和

時間:8 月 8 日 14:10


議題介紹:

此次演講主要是分享基於 DolphinScheduler 的數據質量服務的設計思路、實現方式以及如何在實際場景中去應用


嘉賓介紹: 


孫朝和

在大數據平臺開發上具有豐富的經驗,熱愛並積極參與開源,是 DolphinScheduler 資深代碼貢獻者



使用 Airflow 在 Kubernetes 進行數據處理


分享嘉賓:欒鵬

時間:8 月 8 日 14:50


議題介紹:

1、爲什麼我們用 airflow+K8S

2、airflow oa/rbac/web

3、airflow 運行在 docker/docker-compose/k8s上

4、airflow kubernetes-operator

5、airflow k8s pod 插件

6、airlfow 更新友好

7、在騰訊音樂的使用情況


嘉賓介紹: 


欒鵬

騰訊音樂數據中心,從事雲原生機器學習平臺和數據平臺相關內容的建設



DolphinScheduler 工作流 DAG 大 JSON 拆分詳解及規劃 


分享嘉賓:lijinyong

時間:8 月 8 日 15:30


議題介紹:

目前 DolphinScheduler 的過程定義使用一個很大的 Json 存儲的,這在任務比較大的時候效率不高。我將介紹我們的解決方案來解決這個問題,同時該方案也已經提交到Apache DolphinScheduler,將在近期發佈。


嘉賓介紹: 


lijinyong

DolphinScheduler 社區活躍貢獻者,開源積極分子,現就職於政採雲大數據部門,從事大數據平臺架構工作,擅長大數據平臺及數倉工具的設計與研發,線上 troubleshooting 等

我們在 工作流和數據治理 不見不散 !!!


報名方式

ApacheCon Asia 2021

8月6日-8日  

14 個論壇,100+ 技術項目

140+ 場議題演講

連線對話全球技術大咖與專家

滿滿3天全天候交流盛會

全程免費參加


ApacheCon 亞洲首場線上虛擬大會

2021年8月6日-8日


期待朋友們的到來


點擊原文,即可報名

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/




點擊閱讀原文即可報名,點亮再看,您最好看

本文分享自微信公衆號 - 海豚調度(dolphin-scheduler)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章