CommunityOverCode Asia 專題介紹之數據存儲與計算





雲計算、物聯網、人工智能、5G 等新一代信息技術的進步,加速提升了網絡的承載能力,並進一步推動雲-邊-端計算環境的應用,加快了信息技術與傳統產業的深度融合。面對數據量爆炸式的增長,如何實現資源的靈活高效利用,並滿足高吞吐低延遲的存儲需求是數字化轉型進程中企業的重要議題。同時,高性能計算不斷髮展,海量數據的長期保存需求進一步推高了存儲成本,提升存儲資源的利用率、降低存儲成本也是企業亟需探討的問題。

本次 CommunityOverCode Asia 2023(原 ApacheCon Asia)的數據存儲與計算專題,將給大家帶來 Apache 相關項目的最新資訊,現在就一起來看看吧!



出品人

CommunityOverCode Asia 2023


李崗

CommunityOverCode Asia 2023


Apache 軟件基金會 Member & Apache IPMC Member/Mentor,Apache DolphinScheduler Initial committer & PMC Member,Apache Local Community (ALC) Beijing Member,現擔任聯想集團資深數據架構師。




專題介紹

CommunityOverCode Asia 2023

大數據是計算機科學的一個重要分支,大數據存儲和計算領域的研究和創新從未停止。大數據正在深刻的引領和改變着各個行業,已經與我們的生活密不可分。
大數據也是 ASF 非常重要的組成部分,ASF 有非常多的大數據存儲和計算領域的項目,比如大家熟知的 Apache Hadoop, Apache Spark, Apache HBase, Apache Ozone, Apache CarbonData, Apache Cassandra, Apache ZooKeeper, Apache Celeborn (Incubating) 等等,在這個主題中,大家會學習到這些技術的前沿趨勢和來自一線用戶的實踐經驗、原理、架構分析等精彩內容。


議程亮點

CommunityOverCode Asia 2023

8 月 18 日 13:30 - 17:15


演講議題: What's new in the recent and upcoming HBase releases

分享時間: 8 月 18 日 13:30 - 14:00

議題介紹:

Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. The HBase community is preparing new major release 3.0.0 and new minor release 2.6.0, with some brand new features.

In this presentation, we will introduce these new features, about how they benefit our users and how we implement them in HBase:

1. Tracing Improvements: OpenTelemetry integration;
2. TLS Support: secure and encrypted rpc communication;
3. Cloud Native Support: Better OSS support, k8s deployment, etc.
4. Other Notable Improvements: HBase on ozone, new region replication framework, etc.

Additionally, we will delve into our plans for the future and discuss the exciting directions in which HBase is heading.

嘉賓介紹:
張鐸丨神策數據首席架構師,Apache HBase PMC Chair

清華大學計算機科學與技術系本碩,長期從事開源軟件的開發與維護。2015 至今歷任 ApacheHBase 項目的 Committer、PMC 成員、主席。2020 年成爲 Apache 軟件基金會的 Member。2018 年,在 Apache 軟件基金會全球近 7000 名 Committer 中,貢獻數量排名第三。曾任小米開源委員會主席,負責小米整體開源工作的規劃與推進。目前在神策數據擔任首席架構師。



演講議題: Deep dive into resource manageability in ozone storage

分享時間: 8 月 18 日 14:00 - 14:30

議題介紹:

Organizations need to manage resources allocated and used by different entities within it. In the context of Apache Ozone, resources are storage space and namespace (count of files, keys and directories). Apache Ozone provides capability to define, and control resource usages by specifying quota. Ozone provides ways to manage resources different from the hadoop system.

This talk will present the resource management capabilities, behavior with respect to multiple ozone features such as trash, snapshot, and comparison differences with the hadoop system.

嘉賓介紹:
Sumit Agrawal丨Cloudera Senior Staff Engineer

Sumit Agrawal works at cloudera, contributing to Apache Ozone distributed storage and also a committer. He has 16 years experience in  IT industry and worked over various domain including data storage, cloud application and middleware.



演講議題:Spark SQL Shuffle Join Improvement at eBay

分享時間: 8 月 18 日 14:30 - 15:00

議題介紹:

Join operation is one of the most important and widely used operations in data warehouse.

The Join operator in Apache Spark is one of the most expensive operators, especially Shuffle Join.

In this presentation, we will introduce a series of Shuffle Join optimizations recently added at eBay.

Specifically,
1. Unwrap cast in join condition to use bucket join;
2. Enhance shuffle exchange reuse to reduce table scans;
3. Push down partial aggregation through Join.

嘉賓介紹:
王玉明丨eBay 軟件工程師,Apache Spark PMC

eBay SQL on Hadoop 團隊軟件開發工程師,Apache Spark PMC Member and Committer,2022 SIGMOD Systems Award 獲得者。從 Spark 1.5.0 開始參與 Apache Spark 的開發,併成爲最活躍的代碼貢獻者之一。專注於SQL查詢性能優化。



演講議題: 字節跳動千億文件 HDFS 集羣實踐

分享時間: 8 月 18 日 15:00 - 15:30

議題介紹:

隨着大數據技術的深入發展,數據規模和使用複雜度越來越高,Apache HDFS 面臨着新的挑戰。在字節跳動,HDFS 既是傳統 Hadoop 數倉業務的存儲,也是存算分離架構計算引擎的底座,還是機器學習模型訓練的存儲底座。字節跳動大數據存儲團隊基於 HDFS 本身,搭建了服務於大規模計算資源調度跨多地區的存儲調度能力提升計算任務穩定性;也提供了統合用戶側緩存、常規三副本、冷存的數據識別和冷熱調度能力。本次分享介紹字節跳動如何認識新興場景對傳統大數據存儲的新要求,並分享技術和運維體系演進來支持不同應用場景。

嘉賓介紹:
熊睦丨字節跳動基礎架構工程師

字節跳動大數據存儲底座工程師,主要負責大數據存儲 HDFS 元數據服務演進和上層計算生態支持。



演講議題: Apache Kyuubi & Celeborn (Incubating): 助力 Spark 擁抱雲原生

分享時間: 8 月 18 日 15:45 - 16:15

議題介紹:

在過去數年中,網易在大數據雲原生領域進行了長足的探索。本次演講圍繞如何基於 Apache Kyuubi & Celeborn 等開源技術,構建企業級 Spark on Kubernetes 雲原生離線計算平臺展開,包含技術選型、架構設計、經驗教訓、缺陷改進、降本增效等內容,深入剖析網易在該領域的探索成果。

嘉賓介紹:
潘成丨網易數帆軟件工程師,Apache Kyuubi PMC,Apache Celeborn PPMC

網易數帆軟件工程師,Apache Kyuubi PMC 成員, Apache Celeborn  (Incubating)  PPMC 成員。 主要從事企業級離線計算引擎開發、Apache Kyuubi 開源社區建設等工作。



演講議題:Resilient Data: Exploring Replication and Recovery in Apache Ozone

分享時間: 8 月 18 日 16:15 - 16:45

議題介紹:

Data resilience is crucial in modern distributed systems to ensure data availability and durability. Apache Ozone, a scalable and distributed object store that has the capability to handle billions of objects, addresses the need for resilient data storage through its replication and recovery mechanisms.

This talk delves into the concepts and techniques employed by Apache Ozone to achieve high data resilience. The first part of the talk explores data replication in Apache Ozone. It discusses how Ozone maintains strong consistency by keeping consistent copies of blocks across all nodes and also briefly touches upon how one can reduce data redundancy using the Erasure coding feature. The second part, which is the crux of the talk, deals with data backup and recovery. It will discuss how one can use effective backup strategies like cross-cluster replication, Ozone snapshots, etc. This talk serves as a comprehensive guide for exploring the resilience aspects of Apache Ozone, enabling practitioners to leverage its capabilities effectively and make informed decisions when designing data-intensive applications.

嘉賓介紹:
Sadanand Shenoy丨Cloudera Software Engineer II

Sadanand Shenoy is a committer in the Apache Ozone project and has keen interest in distributed systems . Sadanand is currently working at Cloudera and has been actively contributing to the Apache Ozone project for the past 3 years. He has pursued a B.E in Information Science and Engineering from MSRIT Bangalore.



演講議題: Linkis 在理想汽車的應用實踐

分享時間: 8 月 18 日 16:45 - 17:15

議題介紹:

Apache Linkis 是在上層應用程序和底層引擎之間構建的一層計算中間件。本次分享的內容主要包括:爲何我們選擇 Linkis 作爲理想汽車內部的中間件;在 Linkis 的落地實踐過程中,我們添加和修復了哪些功能。以及這些功能如何讓我們能夠更好地滿足開發需求,提高工作效率;我們在實踐中遇到的一些挑戰和問題以及我們所採取的解決方案和建議;計劃添加的新功能和改進。希望通過本次分享爲正在使用和計劃使用Linkis作爲中間件的團隊提供一些經驗。

嘉賓介紹:
郗世豪丨理想汽車高級大數據工程師

理想汽車高級大數據工程師,主持開發 Linkis 1.3.2 版本,Linkis Committer,入職公司5年,現在在公司主要負責 Linkis 和 Spark 的二次開發,致力於在公司內部落地和推廣 Linkis 平臺。通過和 Spark 等底層引擎的結合,努力探索更加高效、靈活的數據處理方案,最終提升用戶效率。



8 月 19 日 13:30 - 17:15


演講議題: 數據安全:Apache Ozone 如何保證數據的存儲和訪問安全

分享時間: 8 月 19 日 13:30 - 14:00

議題介紹:

Apache Ozone 是 Apache 基金會下的新一代分佈式存儲,構架簡潔,擴展性好,同時支持 S3 對象協議,和 Hadoop 文件系統。支持 MR, Hive, Spark 和 Impala 等計算引擎; 支持 AWS 客戶端訪問;豐富的企業級特性。數據安全是存儲系統的基石。本次分享將主要介紹 Apache Ozone 數據安全功能,包括數據的存儲可靠性,副本容災性,數據巡檢,數據校驗等等,和訪問安全性,認證,鑑權,加密,日誌等等 。通過這些功能,幫助用戶實現一個安全可靠的大數據存儲系統。

嘉賓介紹:
陳怡丨Cloudera 首席存儲工程師

Apache Ozone 開源社區 PMC 主席,長期專注於分佈式存儲領域。 目前就職於 Cloudera,擔任首席存儲工程師。曾就職於騰訊和 Intel,擔任大數據存儲技術負責人。



演講議題: 字節跳動 MapReduce -> Spark 平滑遷移實踐

分享時間: 8 月 19 日 14:00 - 14:30

議題介紹:

隨着業務發展,字節跳動內部每天線上約運行 120 萬個 Spark 作業,與之相對比的是,線上每天依然約有兩萬到三萬個 MapReduce 任務。作爲一個歷史悠久的批處理框架,從大數據研發的角度來看,MapReduce 引擎的運維面臨了一系列問題。例如,框架更新迭代的的 ROI 較低,對於新的計算調度框架適配性較差等等。而從用戶的角度來看, MapReduce 引擎的使用也存在一系列的問題。例如,計算性能不佳,需要額外的 Pipeline 工具管理串行運行的 Job,希望遷移 Spark 但是存量作業數量多且大量作業使用了 Spark 本身不支持的各種腳本。在此背景下,字節跳動 Batch 團隊設計並實現了一套 MapReduce 任務平滑遷移 Spark 的方案,該方案使用戶僅需對存量作業增加少量的參數或環境變量即可完成從 MapReduce 到 Spark 的平緩遷移,大大降低了遷移成本,並且取得了不錯的成本收益。

嘉賓介紹:
魏中佳丨字節跳動基礎架構工程師

2018 年加入字節跳動,現任字節跳動基礎架構大數據開發工程師,專注大數據分佈式計算領域,主要負責 Spark 內核開發、字節自研 Shuffle Service 開發。



演講議題: Apache Kudu 在神策的應用和實踐

分享時間: 8 月 19 日 14:30 - 15:00

議題介紹:

Apache Kudu 在神策的應用中遇到的困難,我們的解決方案,以及我們未來對 Apache Kudu 的規劃。

重點介紹以下三點:
1. Apache Kudu 的數據遷移;
2. 解決 Apache Kudu 啓動慢的問題;
3. 解決 Apache Kudu metadata 存儲問題.

嘉賓介紹:
汪細勖丨神策網絡科技(北京)有限公司分佈式軟件開發工程師

2017 年畢業於北京航空航天大學,長年致力於互聯網大數據的基礎架構建設,主要從事分佈式存儲計算系統的開發及應用工作。熱愛開源,積極參與開源社區的工作,先後參與 Apache Doris, Apache Pegasus 和 Apache Kudu 的開源項目,並且是 Apache Doris committer。目前供職於神策網絡科技有限公司基礎研發部存儲組。



演講議題:小米 HDFS 數據治理實踐與演進

分享時間: 8 月 19 日 15:00 - 15:30

議題介紹:

HDFS 作爲小米底層數據存儲系統,隨着公司業務的高速發展,數據規模飛速增長,存儲成本也快速上升, HDFS 數據治理成爲了一件無法避開的事情。
本次分享着重於介紹小米內部進行 HDFS 數據治理的背景,如何基於冷熱溫數據分層存儲思想,利用性價比更高的公有云對象存儲,實現 HDFS 數據治理的實踐與演進過程,以及未來的數據治理規劃。

嘉賓介紹:
王成偉丨小米高級軟件研發工程師

小米高級軟件開發工程師,HDFS  Contributor,多年的 HDFS 優化與維護經驗。在小米主要負責 HDFS 相關的優化與維護工作。



演講議題: Apache Celeborn(Incubating): 讓 Spark 和 Flink 更快更穩更彈性

分享時間: 8 月 19 日 15:45 - 16:15

議題介紹:

Apache Celeborn (Incubating) 是一個高性能,高可用,可伸縮的通用 Shuffle 服務,支持 Spark/Flink 兩大主流引擎(未來將支持 Tez/MR 等更多引擎)。Celeborn 在阿里及多家知名企業支撐每天數十 P 的生產 Shuffle,提升穩定性和性能的同時降低成本。本次分享將介紹 Celeborn 的高性能高可用核心設計,支持多引擎的統一架構,用戶案例,以及如何更好的參與社區。

嘉賓介紹:
周克勇丨阿里雲 EMR Spark 引擎負責人

阿里雲 EMR Spark 引擎負責人,Apache Celeborn (Incubating)的初始作者,在 Remote Shuffle Service,向量化引擎,優化器等方面有一定經驗。



演講議題: 基於 Apache Linkis 快速高效構建數據應用工具

分享時間: 8 月 19 日 16:15 - 16:45

議題介紹:

介紹 Apache Linkis 以及社區發展情況,並講述 Apache Linkis 是如何作爲數據應用工具的開發基座,降低上層應用工具在連通、擴展、管控、複用等計算治理方面的開發工作量,比如數據質量工具只需關注質量規則的管理,而無需處理任務的高併發和多租戶問題。此外,我們還將探討基座爲數據應用工具提供了哪些必不可少的功能。

嘉賓介紹:
王和平丨微衆銀行高級工程師

Apache Linkis PMC 現在就職於微衆銀行,主要負責 Linkis、Spark、Trino、DataSphereStudio 等項目的開發和運營工作。



演講議題: How increasing partition size in Apache Cassandra can reduce disk usage by over 30%

分享時間: 8 月 19 日 16:45 - 17:15

議題介紹:

Did you know that over-partitioning in Apache Cassandra can lead to excessive storage requirements? In this presentation, we explore how, at Instaclustr, were able to reduce the storage footprint of our metrics data by over 30%, from 244tb to 157tb, and improve general performance of our cluster - simply by making a small change to the schema of the tables we were using. Instaclustr manages a fleet of over 10 000 customer servers as part of our managed service offering and part of that system includes real time metrics collection from the operating system and running applications which are stored in a 70 node Apache Cassandra cluster. We will go into detail explaining what problems the existing schema was designed to solve, how our Cassandra experts determined what we needed to change, and why the change was able to drastically improve our storage efficiency without major changes to our downstream systems.

嘉賓介紹:
John Del Castillo丨NetApp Technology Evangelist

John Del Castillo is a software engineer with over 15 years of experience developing enterprise software solutions across a variety of languages and technologies. For 6 years he worked at Instaclustr as a Lead Engineer, and for the last year he has taken the mantle of Technology Evangelist, specializing in open-source technology. In this role, he explores the landscape of open-source technologies, explores new solutions, documents interesting use cases and creates written and video content to help educate and encourage people to use open source for their business.


專題議程

CommunityOverCode Asia 2023


作爲 Apache 軟件基金會(ASF)的官方全球系列大會,每年的 CommunityOverCode Asia 都吸引着來自全球各個層次的參與者、社區共同探索 "明天的技術"。8 月 18 日至 20 日,即將強勢來襲的 CommunityOverCode Asia 2023 上,大家可以近距離感受來自 Apache 項目 的最新發展和新興創新。


本文分享自微信公衆號 - WeDataSphere(gh_273e85fce73b)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章