原创 五分鐘深入 Hadoop 內核

五分鐘深入 Hadoop 內核回顧上篇文章我們說到,Hadoop 的工作下圖所示,負責把 mapper function 裝載到要運行 mapper 的機器上,然後執行 mapper function,之後負責把 mapper 的結果 sh

原创 五分鐘零基礎搞懂Hadoop

五分鐘零基礎搞懂Hadoop「大數據」,想必大家經常聽到這個被炒得很熱的話題。隨之而來的是各種看似高大上的專業術語,比如「擴展性」、「可靠性」、「容錯性」,好像真的很高深,要積累多年經驗才能學習。但另一方面,很多同學都剛剛進入互聯網這個行業

原创 Hadoop分佈式文件系統HDFS的工作原理詳述

Hadoop分佈式文件系統(HDFS)是一種被設計成適合運行在通用硬件上的分佈式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。它能提供高吞吐量的數據訪問,非常適合大規模數據集上的應用。要理解HDFS的內部工作原理,首先要

原创 分佈式服務框架 Zookeeper -- 管理分佈式環境中的數據

Zookeeper 分佈式服務框架是 Apache Hadoop 的一個子項目,它主要是用來解決分佈式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集羣管理、分佈式應用配置項的管理等。本文將從使用者角度詳細介紹 Zook

原创 分佈式網站架構後續:zookeeper技術淺析

Zookeeper是hadoop的一個子項目,雖然源自hadoop,但是我發現zookeeper脫離hadoop的範疇開發分佈式框架的運用越來越多。今天我想談談zookeeper,本文不談如何使用zookeeper,而是zookeeper到

原创 HDFS Balancer流程(下)

均衡操作依靠一個均衡操作服務器、NameNode的代理和DataNode來實現,其邏輯流程如下:其中,Step1:Balance Server從Name Node中獲取所有的Data Node情況,即每一個Data Node磁盤使用情況;S

原创 我的友情鏈接

51CTO博客開發

原创 Hadoop分佈式文件系統HDFS的工作原理詳述

Hadoop分佈式文件系統HDFS的工作原理詳述Hadoop分佈式文件系統(HDFS)是一種被設計成適合運行在通用硬件上的分佈式文件系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。它能提供高吞吐量的數據訪問,非常適合大規模數據

原创 5分鐘深入淺出 HDFS

5分鐘深入淺出 HDFSHDFS架構HDFS Client大家還記得我們如何向 Hadoop cluster 提交任務嗎?是通過 Hadoop client 進行的。同樣,我們和 HDFS 打交道也是通過一個 client library.

原创 解讀HDFS

解讀HDFS 是蠻久木有寫過關於hadoop的博客了額,雖然最近也看了一些關於linux的基礎知識,但似乎把這個東西忘記了,其實時不時回顧一下以前的知識還是蠻有意思的,且行且憶! 我們Hadoop 主要由HDFS和MapReduce 引擎兩

原创 hadoop學習筆記:hadoop文件系統淺析

1.什麼是分佈式文件系統?管理網絡中跨多臺計算機存儲的文件系統稱爲分佈式文件系統。2.爲什麼需要分佈式文件系統了?原因很簡單,當數據集的大小超過一臺獨立物理計算機的存儲能力時候,就有必要對它進行分區(partition)並存儲到若干臺單獨計

原创 分佈式服務框架 Zookeeper -- 管理分佈式環境中的數據

Zookeeper 分佈式服務框架是 Apache Hadoop 的一個子項目,它主要是用來解決分佈式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集羣管理、分佈式應用配置項的管理等。本文將從使用者角度詳細介紹 Zook

原创 zookeeper使用簡介及注意事項

一、zookeeper使用簡介場景一 有這樣一個場景:系統中有大約100w的用戶,每個用戶平均有3個郵箱賬號,每隔5分鐘,每個郵箱賬需要收取100封郵件,最多3億份郵件需要下載到服務器中(不含附件和正文)。用20臺機器劃分計算的壓力,從多個

原创 Hadoop,MapReduce,HDFS面試題

Hadoop,MapReduce,HDFS面試題  1.什麼是hadoop  答:是google的核心算法MapReduce的一個開源實現。用於海量數據的並行處理。  hadoop的核心主要包含:HDFS和MapReduce  HDFS是分

原创 我的友情鏈接

51CTO博客開發