背景
ApacheCon
@ 官方全球系列大會
ApacheCon 是 Apache 軟件基金會(ASF)的官方全球系列大會,每年舉辦一次。作爲久負盛名的開源盛宴,是開源界最具期待的大會之一。
自 1998 年開辦以來,ApacheCon 已經吸引了超過 350 個技術項目和不同社區參與其中,匯聚海內外的業內專家與老師,分享全球最新的技術動態與實踐,共同探討 "明天的技術",讓廣大的技術愛好者們看到各技術前沿,有哪些最新趨勢和進展,更好的升級自己的技術棧。
今年是組委會首次針對亞太地區舉辦 ApacheCon 在線大會:ApacheCon Asia。Asia 大會將來自中國、日本、印度、美國等海內外的 140+ 議題分爲大數據、Incubator、API / Microservice、互聯網、集成、開源文化等 14 個論壇。
關於 Workflow/Data Governance工作流和數據治理 論壇
工作流和數據治理將複雜的數據處理進行有序調度及處理,並在元數據、血緣關係和數據質量等方面進行管控。在 ASF 有多種個項目提供了多種數據工作流方案,例如Apache DolphinScheduler,Apache Airflow,Apache Oozie,而 Apache Atlas 和Apache Griffin 提供了多種元數據、數據質量的管理。在工作流和數據治理主題中大家不但會了解到一線用戶將這些 Apache 項目應用到具體項目當中的實踐經驗,而且會了解這些 Apache 項目生態的最新進展,同時也將展望數據調度和數據治理方面的願景。
出品人
郭煒
Apache Member & Apache DolphinScheduler PMC
8月7-8日議程亮點
@ Apache
WORKFLOW/DATA GOVERNANCE
DolphinScheduler 調度工具在運營商的實踐
分享嘉賓:王興傑
時間:8月7日 13:30
議題介紹:
我們選擇了 DolphinScheduler,一個更容易擴展、擁有良好容錯機制、社區活躍度非常高的開源調度系統。我們將介紹在聯通的使用 DolphinScheduler 調度解決辦法來面對 >10 萬級別日常調度任務。
嘉賓介紹:
王興傑
14 年畢業後開始從事軟件研發工作,7 年研發經驗,目前主要負責針對聯通大數據的調度系統的研發和遷移工作。
海量複雜任務調度利器 -- Apache DolphinScheduler
分享嘉賓:Qiang Guo
時間:8月7日 14:10
議題介紹:
Apache DolphinScheduler 是海量複雜任務穩定調度的場景需求下順勢而生的一款調度工具,本次議題將圍繞其穩定性、易用性等多個方面來介紹 DolphinScheduler。同時,我們也會帶來 2.0 - 微內核的架構設計,2.0 後,DolphinScheduler 的各個組件將以 SPI 的形式開放出去,用戶可以在這個基礎上快速實現自己的特性需求。
嘉賓介紹:
Qiang Guo
Apache DolphinScheduler PMC,高級軟件工程師,擅長:網絡通信、大數據處理和計算
Airflow 深度實踐
分享嘉賓:吳璉
時間:8月7日 14:50
議題介紹:
基於 Airflow 平臺在上海數禾科技的真實案例,介紹 Airflow 在複雜場景下應用、運維以及定製開發的實踐:
複雜場景的挑戰:
跨雲分佈式部署如何保障高可用;
多類型調度場景如何有效支撐;
ETL 作業如何保障高可用;
調度治理如何開展;
如何做到最大自動化;
同時針對一些業務需求:
數據分析人員有大量的調度需求,DAG Python 腳本開發上手難度大
部門或者個人所屬的 DAG 並不想被其他部門人員編輯、查看和手動調度?
DAG 中的作業上線審批效率低、工作量大,如何去提高效率去避免一些非規範化的操作?
消息系統如何觸發作業跑批?
分享相應的優化方案:
DAG 配置可視化:界面配置 DAG 參數,後臺自動生成 DAG 文件。
DAG 權限控制:分部門分 DAG 賦權,區分讀、寫、執行。
作業規範化監控:配置檢測規則去監控作業是否符合規則,執行相應的提示。
事件觸發插件:接收 Sensor 作業和 AMQP 等各類消息,觸發相應作業執行。
嘉賓介紹:
吳璉
上海 DataSeed 信息技術大數據開發工程師,2年 airflow 使用、維護和開發經驗,對 airflow 有深刻理解,希望我的經驗和理解能爲 airflow 開源社區貢獻一份力量。
基於 Apache Hudi 的數據湖上的 Dolphin 調度器的實踐
分享嘉賓:Zhao Yuwei
時間:8 月 7 日 15:30
議題介紹:
數據湖是一個企業級的數據管理平臺,用於分析不同類型的數據源。數據湖架構確保了多種數據源的整合,並支持多種數據模式,以確保數據的準確性。它可以滿足實時分析的需要,也可以作爲數據倉庫,滿足批量數據挖掘的需要。因此,我們需要一個高效、穩定且易於擴展的任務調度系統來協調數據湖的外部能力,如數據攝取、數據存儲、數據探索、數據發現、數據治理等。在這裏我將分享我們爲什麼選擇 Apache DolphinScheduler 作爲任務調度系統,以及我們如何讓數據用戶輕鬆地與數據湖互動,而不必關注太多的技術細節
嘉賓介紹:
Zhao Yuwei
從事 Hadoop 相關的開發工作,目前主要工作方向是任務調度系統的研發。
新一代大數據工作流調度平臺 -- Apache DolphinScheduler 的架構演變
分享嘉賓:Lidong Dai
時間:8 月 8 日 13:30
議題介紹:
主要包括以下六個部分:
第一,DolphinScheduler的介紹
第二,大數據工作流調度平臺的痛點
第三,DolphinScheduler的優勢
第四,從1.2版到1.3版的架構演變
第五,架構2.0的路線圖 & Roadmap
最後,分享一些用戶案例
嘉賓介紹:
LIDONG DAI
Apache DolphinScheduler PMC Chair & Apache Incubator PMC,10+ 年的大數據經驗,擅長大型數據平臺建設和優化
基於 Apache DolphinScheduler 的數據質量服務實踐
分享嘉賓:孫朝和
時間:8 月 8 日 14:10
議題介紹:
此次演講主要是分享基於 DolphinScheduler 的數據質量服務的設計思路、實現方式以及如何在實際場景中去應用
嘉賓介紹:
孫朝和
在大數據平臺開發上具有豐富的經驗,熱愛並積極參與開源,是 DolphinScheduler 資深代碼貢獻者
使用 Airflow 在 Kubernetes 進行數據處理
分享嘉賓:欒鵬
時間:8 月 8 日 14:50
議題介紹:
1、爲什麼我們用 airflow+K8S
2、airflow oa/rbac/web
3、airflow 運行在 docker/docker-compose/k8s上
4、airflow kubernetes-operator
5、airflow k8s pod 插件
6、airlfow 更新友好
7、在騰訊音樂的使用情況
嘉賓介紹:
欒鵬
騰訊音樂數據中心,從事雲原生機器學習平臺和數據平臺相關內容的建設
DolphinScheduler 工作流 DAG 大 JSON 拆分詳解及規劃
分享嘉賓:lijinyong
時間:8 月 8 日 15:30
議題介紹:
目前 DolphinScheduler 的過程定義使用一個很大的 Json 存儲的,這在任務比較大的時候效率不高。我將介紹我們的解決方案來解決這個問題,同時該方案也已經提交到Apache DolphinScheduler,將在近期發佈。
嘉賓介紹:
lijinyong
DolphinScheduler 社區活躍貢獻者,開源積極分子,現就職於政採雲大數據部門,從事大數據平臺架構工作,擅長大數據平臺及數倉工具的設計與研發,線上 troubleshooting 等
我們在 工作流和數據治理 不見不散 !!!
報名方式
ApacheCon Asia 2021
8月6日-8日
14 個論壇,100+ 技術項目
140+ 場議題演講
連線對話全球技術大咖與專家
滿滿3天全天候交流盛會
全程免費參加
ApacheCon 亞洲首場線上虛擬大會
2021年8月6日-8日
期待朋友們的到來
點擊原文,即可報名
ApacheCon Asia 2021
https://www.apachecon.com/acasia2021/
點擊閱讀原文,即可報名,點亮再看,您最好看
本文分享自微信公衆號 - 海豚調度(dolphin-scheduler)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。