HDFS弱點

原創

2020-06-24 20:58

1 低延遲訪問
            如果應用要求對數據低延遲訪問，比如在數十毫秒的範圍，那麼HDFS就不適用了。HDFS在傳輸高吞吐量的數據方面被優化，那麼這就會以增加延遲爲代價。HBase是目前一個對於低延遲訪問的較好的選擇。

2 大量的小文件
            由於namenode在內存中持有文件系統的元數據，文件系統中文件個數的限制就由namenode上的內存數額決定了。作爲一個經驗法則，每一個文件、目錄和塊需要大約150字節。所以如果你有一百萬個文件，每個文件佔用一個塊，那麼你將需要至少300M內存。存儲數百萬個文件是可行的，但是數十億個文件就超出了當前硬件的承載容量了。

3 多個寫作者，隨意的文件修改
            HDFS中的文件由一個單獨的作者進行寫操作。寫入始終在文件的末端進行。HDFS不支持多個寫作者，或者說不支持在文件中進行任意的修改。(Hadoop將來可能會支持這些操作，但是相對而言，效率會降低)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

DolphinScheduler 3.3.0版本更新一覽

Apache DolphinScheduler即將迎來3.3.0版本的發佈，屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上，項目PMC 阮文俊爲大家介紹了3.3.0版本將帶來的主要更新和改進，併爲大家指出瞭如何參與社區的

2024-05-23 21:22:09

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

HBase Meta 元信息表修復實踐

作者：vivo 互聯網大數據團隊 - Huang Guihu、Chen Shengzun HBase是一款開源高可靠、高可擴展性、高性能的分佈式非關係型數據庫，廣泛應用於大數據處理、實時計算、數據存儲和檢索等領域。在分佈式集羣中，硬件故

2024-05-09 12:43:33

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

hive分區和分桶你熟悉嗎？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

Hago 的 Spark on ACK 實踐

Hago 於 2018 年 4 月上線，是歡聚集團旗下的一款多人互動社交明星產品。Hago 融合優質的匹配能力和多樣化的垂類場景，提供互動遊戲、多人語音、視頻直播、 3D 虛擬形象互動等多種社交玩法，致力於爲用戶打造高效、多樣、最具沉浸式的

2023-11-17 01:57:56

24小時熱門文章

最新文章

最新評論文章