Hadoop的工作原理、文件系統和目前發展情況

除非你過去幾年一直隱居,遠離這個計算機的世界,否則你不可能沒有聽過Hadoop,全名ApacheHadoop,是一個在通用低成本的硬件上處理存儲和大規模並行計算的一個開源框架。從2011年他的面世,他已經成爲大數據領域最出名的平臺。

如何工作的?

Hadoop是從Google文件系統發源而來,並且他是一個用Java開發的跨平臺的應用.核心組件有:HadoopCommon,擁有其他模塊所依賴的庫和基礎工具,Hadoop分佈式文件系統(HDFS),負責存儲,HadoopYARN,管理計算資源,和HadoopMapReduce,負責處理的過程。

Hadoop把文件拆成小塊並且把他們分發給集羣中的節點.然後,它使用打包的代碼分發到節點上並行處理數據.這意味着可以處理數據的速度會比使用傳統的體系結構的更快.

一個典型的Hadoop集羣都會有主節點和從節點或者叫工作節點.主節點有一個任務跟蹤器,任務調度,名字節點和數據節點組成.從節點通常作爲一個數據節點和任務調度器,不過特殊的場景下程序可能只有數據節點然後在其他的從節點進行處理計算。

在大的Hadoop集羣中,通常會使用一個專用的名字節點來管理HDFS節點的文件系統索引信息。這防止了文件系統的數據丟失和損壞。

Hadoop文件系統

Hadoop分佈式文件系統是Hadoop擴展的核心.HDFS當處理大數據的優點是,它可以跨多臺機器存儲gb或tb大小的文件.因爲數據的副本存在了多個機器上,而不是使用附加RAID來在單臺機器上保證.不過RAID還是會被用來提升性能.提供進一步的保護,允許主NameNode服務器自動切換到備份失敗的事件。

HDFS被設計成可以直接掛載在Linux系統的用戶空間(FUSE)或者虛擬文件系統.通過一個JavaAPI來處理文件的訪問權限.HDFS被設計爲跨硬件平臺和操作系統的可移植性。

Hadoop也能配合其他的文件系統工作,包括FTP,AmazonS3和MicrosoftAzure,然而,它需要一個特定的文件系統的橋樑,以確保沒有性能損失。

Hadoop和雲

相對傳統數據中心,Hadoop也經常被部署在雲上.這樣做的好處是,公司可以很容易地部署Hadoop更迅速和較低的安裝費用.大多數雲供應商都提供某種形式的Hadoop部署方案。

Microsoft提供AzureHDInsight,允許用戶使用他們所需要的節點的數量,並收取他們使用的計算能力和存儲的費用.HDInsight是基於Hortonworks並且可以很容易地在內部系統和雲備份,或開發和測試之間移動數據.

AmazonElasticComputeCloud(EC2)和AmazonSimpleStorageService(S3)也支持Hadoop,加上Amazon提供了ElasticMapReduce產品,所以能自動化Hadoop集羣的配置,作業的運行和終止以及處理EC2和S3存儲之間的數據傳輸。

Google提供一個管理Spark和Hadoop服務叫做CloudDataproc,用一系列的Shell腳本來創建和管理Spark和Hadoop集羣.他支持第三方的Hadoop發行版像Cloudera,Hortonworks和MapR.GoogleCloudStorage也可以和Hadoop配合使用.

Hadoop近況

Hadoop已經有些初步的進展.2015年的Gartnerstudy只有18%的人表示會在接下來的兩年使用.不願意採用這種技術的原因包括成本太高,相對於預期的利益,和缺乏必要的技能。

仍然有一些高調的用戶。雅虎的搜索引擎由Hadoop驅動,公司已經通過開源社區向公衆提供了其使用的版本的源代碼。Facebook也使用Hadoop,並且在2012年該公司宣佈其集羣具有100PB的數據,並且每天增長約爲一個PB。

儘管初始佔有慢,Hadoop也在增長。AlliedMarketResearch在2016年初的一項調查估計,到2021年Hadoop市場的收入將超過840億美元。

由於Hadoop工作的方式,看到了一些迴歸到舊時代批處理信息的東西。雖然從大量歷史數據中提取洞察力很有用,但對於實時應用程序或連續傳入的數據流有效性較低。

特性

Hadoop一直與大數據密切相關。隨着物聯網設備的擴展以及收集的數據量增加,因而Hadoop的處理能力需求也將增加。其快速處理大數據的能力意味着Hadoop系統對於做日常業務決定起着越來越重要的作用。

各種規模的組織都熱衷於使用大數據。Hadoop開源的特性以及其在商業硬件上運行的能力意味着其處理能力不僅在大型公司可用,也可以幫助大衆使用大數據。

對於所有這些運作成功的公司需要能夠利用Hadoop可以提供的優勢。這意味着需要解決技能差距,並且可能仍然需要那些掌握Java,Linux,文件系統和數據庫背景的員工,這些員工能夠快速獲得Hadoop技能。這也意味着越來越多地使用雲以一種不太複雜的方式提供Hadoop的優勢。

人工智能、大數據、雲計算和物聯網的未來發展值得重視,均爲前沿產業,多智時代專注於人工智能和大數據的入門和科譜,在此爲你推薦幾篇優質好文:
1.在大數據的價值觀裏,Hadoop主要什麼關鍵作用?
2.對於大數據,Hadoop主要有什麼優勢
3.Hadoop、spark、SaaS、PaaS、IaaS、雲計算概念區分?
多智時代-人工智能大數據學習入門網站|人工智能、大數據、物聯網雲計算的學習交流網站

多智時代-人工智能大數據學習入門網站|人工智能、大數據、雲計算、物聯網的學習服務的好平臺
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章