大數據計算系統學習筆記

原創

2021-01-30 09:42

1.大數據計算體系可歸納三個基本層次：
數據應用系統，數據處理系統，數據存儲系統

2.計算的總體架構

HDFS(Hadoop 分佈式文件系統)
(1)設計思想：分而治之，將大文件大批量文件，分佈式存放在大量服務器上，以便於採取分而治之的方式對海量數據進行運算分析。
(2)首先，它是一個文件系統，用於存儲文件，通過統一的命名空間–目錄樹來定位文件。然後，它是分佈式的，又很多服務器聯合起來實現其功能，集羣中的服務器有各自的角色。有namenode和datanode兩部分，有點類似索引結構，並採用備份的方式，例如第二namenode和b1出現3次。

數據處理系統的比較

主要看mapreduce和spark的兩個極端，包括時延和硬件的需求。

mapreduce計算模型

3.計算模型和計算架構

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

巧用 TiCDC Syncpiont 構建銀行實時交易和準實時計算一體化架構

本文闡述了某商業銀行如何利用 TiCDC Syncpoint 功能，在 TiDB 平臺上構建一個既能處理實時交易又能進行準實時計算的一體化架構，用以優化其零售資格業務系統的實踐。通過遷移到 TiDB 並巧妙應用 Syncpoint，該銀行成

2024-04-30 22:24:58

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

華爲云云原生FinOps解決方案，釋放雲原生最大價值

華爲云云原生FinOps通過可視化的成本洞察和成本優化，幫助用戶精細用雲以提升單位成本的資源利用率，實現降本增效目標企業上雲現狀：上雲趨勢持續加深，但云上開支存在顯著浪費根據Flexer 2024年最新的一項調查顯示，當前有超過7

2024-04-29 22:33:46

三喜臨門！信必優連收三家金融行業客戶表揚信

近日，信必優陸續收到全球知名銀行客戶、中國證券行業TOP級客戶、中國期貨行業TOP級客戶的表揚信。客戶高度讚揚我司員工在工作中表現突出，以積極主動、團結協作的工作態度和出色的技術能力，在技術團隊中做出表率，爲項目的順利交付做出重要貢獻。

2024-04-29 22:32:22

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

從NoSQL到NewSQL——10年代大數據浪潮下的技術革新

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫演變

2024-04-28 23:12:26

“百團大戰”下，20年代的國產數據庫如何乘風破浪？

引言在數字化浪潮的推動下，數據庫技術已成爲支撐數字經濟的堅實基石。騰訊雲 TVP《技術指針》聯合《明說三人行》特別策劃的直播系列——【中國數據庫前世今生】，我們將通過五期直播，帶您穿越五個十年，深入探討每個時代的數據庫

2024-04-28 23:12:24

大數據小白的測試成長之路

引言 22年校招入職京東後，我一直在數據中臺測試部從事測試開發的工作。畢業後，寫的最多的文檔是測試計劃和測試報告，鮮有機會就自己的成長碼字進行回顧和總結。借“up技術人”欄目，也終於是在工作之餘回頭望，對自己這近兩年時光進行一個小總結

2024-04-28 11:17:19

如何從0到1設計診斷系統

引言在整車電子電氣體系中，診斷系統的設計扮演着至關重要的角色，負責支持整車的刷寫、故障排查和EOL(End of Line)等關鍵操作。這一重要性在於這些操作的實現都依賴於診斷系統的全面支持。因此，在設計診斷系統時，必須確保

2024-04-26 22:43:26

華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗

本文分享自華爲雲社區《重磅新品發佈！雲耀數據庫HRDS，享受輕量級的極致體驗！》，作者：GaussDB 數據庫。所謂，凡有井水處，即能歌柳詞。大數據時代，凡有數據處，必有數據庫。隨着業務需求的不斷擴大和數據量的激增，數

2024-04-23 22:32:33

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

24小時熱門文章

最新文章

最新評論文章