【華爲雲技術分享】上億條數據，如何查詢分析簡單又高效？

原創

华为云

2020-06-28 20:20

正值618大促，小張遇到了一個棘手的問題，需要在一週內將公司近1年電商部門的營收和線下門店經營數據進行聯合分析。

這將產生哪些數據難題呢？

數據孤島：電商部門的數據存在數倉A、門店經營收入數據存在數倉B，如何便捷的進行多倉聯合分析？
PB級數據量：多電商平臺+全國線下門店每天將產生TB級數據量，年數據量高達PB級！

他在第一時間聯繫了集團CTO，希望將各部門數據在一天內導出給他。

這時候，CTO犯難了：

公司現有的資源池可自如應對TB級數據量，而小張要的數據量粗略估計達到了PB級，大大超出了公司現有資源池承受範圍，只能以時間爲代價導出；而爲了不常見場景擴大公司資源池，整體的成本太高。

面對小張遇到的棘手問題，雲湖湖推薦了一款華爲雲大數據查詢分析神器——數據湖探索(DLI)服務；一個DLI即可撬動EB級數據量聯合查詢，每CU僅需0.35元/小時（1CU=1Core4G Mem），1CU包月僅需150元。

數據湖探索(DLI)服務 2.0是完全兼容Apache Spark和Apache Flink生態的Serverless大數據計算分析服務，用戶僅需使用標準SQL或程序即可查詢分析各類異構數據源。

DLI是如何解決小張問題的呢？

DLI服務架構——Serverless

DLI是無服務器化的大數據查詢分析服務它的優勢在於:

按量計費：真正的按使用量(掃描量/CU時)計費,不運行作業時0費用。
自動擴縮容：根據業務負載，對計算資源進行預估和自動擴縮容。

DLI Serverless架構就可輕鬆解決小張成本、資源不足和臨時性業務需求的問題。

1、DLI核心引擎——Spark+Flink

Spark是用於大規模數據處理的統一分析引擎，聚焦於查詢計算分析。DLI在開源Spark基礎上進行了大量的性能優化與服務化改造，不僅兼容Apache Spark生態和接口，性能較開源提升了2.5倍，在小時級即可實現EB級數據查詢分析。

同時，DLI也提供用於實時處理的Flink引擎。

2、DLI王牌功能——跨源分析

DLI支持雲上多種雲服務、自建數據庫以及線下數據庫，可直接實現多數據源跨庫分析，構建企業的統一視圖。

小張將線下數倉A與數倉B同時接入DLI，就可直接在DLI上進行聯合查詢。避免了兩倉數據遷移再重新建倉進行聯合查詢的過程，輕鬆搞定跨庫查詢。

數據湖探索(DLI)服務的其他優勢

純SQL操作：提供標準SQL接口，用戶僅需使用SQL便可實現海量數據查詢分析。
存算分離：存儲和計算解耦，分開申請和計費，降低成本的同時，提高了資源利用率。
企業級多租戶：支持計算資源按租戶隔離，數據權限控制到隊列、作業，幫助企業實現部門間數據共享和權限管理
免運維、高可用：用戶無需感知底層運維、升級、跨AZ高可用，跨AZ雙活。

數據湖探索(DLI)服務的應用場景

數據庫分析+DLI 2.0 ：一鍵建倉保留數據庫的易用體驗

痛點：

數據庫多無法做全量分析
數據庫複雜關係無法查詢
影響在線其他數據業務

解決方案：

僅使用標準SQL即可完成大數據查詢分析

精準營銷+DLI 2.0：電商智能推薦跨庫跨源海量數據秒級查詢

痛點：

數據源太多怎麼聯合分析
智能推薦需要短時間內實現

解決方案：

DLI跨源能力，輕鬆打破數據孤島。現已支持10類數據源和線下自建數據。

日誌分析+DLI 2.0：公司必備場景按量計費成本更低

痛點：

日誌分析時間跨度大
資源空閒大利用率低

解決方案：

DLI按量計費，單CU每小時僅需0.35元。

實時風控+DLI 2.0：金融、運維等實時場景減少風險事件發生

痛點：

數據刷新不及時，風險事件頻繁發生
需要深入瞭解Flink後臺架構進行實時數據分析

解決方案：

風控系統對實時性要求很高，DLI採用高性能計算資源，單CPU每秒吞吐1千~2萬條消息。

Serverless大數據服務是一種面向未來的形態。隨着逐個攻破當前存在的問題，它在大數據分析所佔的比重一定會逐年增加。真正把大數據分析變成跟水和電一樣隨取隨用，每個企業都能用得起的工具。華爲雲數據湖探索(DLI)服務能夠助力企業輕鬆完成異構數據源的批處理、流處理等，挖掘和探索數據價值。

瞭解更多內容，可登入華爲雲數據湖探索(DLI)服務官

點擊這裏→瞭解更多精彩內容

相關推薦

華爲雲“智能數據湖”解決之道

華爲雲多元計算+AI 打造企業級智能數據湖

玩轉雲上數據湖，解析Serverless 技術落地

數據湖&數據庫，別再傻傻分不清了

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【華爲雲技術分享】上億條數據，如何查詢分析簡單又高效？

DLI是如何解決小張問題的呢？

數據湖探索(DLI)服務的其他優勢

數據湖探索(DLI)服務的應用場景

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

Serverless時代已來，華爲雲的思考、探索和實踐

革命性的容器集羣？嚯，好大的口氣

何以穩居中國公有云市場第二？華爲雲新掀起的這波技術浪湧值得關注

華爲雲AAAI 2021論文：一站式AI平臺ModelArts聯邦學習服務技術揭祕

2020年度十大創新先行者創新案例成果展示-中圖雲創

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結