深入浅出介绍Hadoop

一、Hadoop的由来

1998年9月4日,一个影响世界的搜索引擎诞生于美国硅谷,就是家喻户晓的Google。

而在美国还有一位工程师Doug Cuttting对搜索引擎同样有着浓厚的兴趣,凭借着自己的一腔热血研发出了一个基于JAVA开发环境来用于文本搜索的函数库:Lucence,用于为中小型软件加入全文搜索。早期的Lucence被发布于Doug Cuttting的个人网站和SourceForge。

由于其开源及便捷的特质,Lucence在当时深受程序员的喜爱。

随着Lucence的广泛应用,Doug Cuttting的名气也逐渐壮大,2001年,Doug Cuttting进入Apache软件基金会研究开发。2004年,随着Doug Cuttting对Lucence的不断改进,他成功研制出了更加便捷的Nutch。

随后Nutch在市场上势头迅猛,逐渐盖过Lucence。甚至曾在硅谷引发一段Nutch的潮流。

随着时间的推移,再好的搜索引擎都将面临一个问题:存储体及不足。不管是Google还是Doug Cuttting,对这个问题都一度束手无策。面对这个问题,Doug Cuttting率先开发出了NDFS,一个分布式文件存储系统。成功解决了这个令各大厂商头疼的存储问题。

随着这一系列的工程,Doug Cuttting的名字已经响彻硅谷。2006年,Yahoo(雅虎)成功招安了Doug Cuttting。Doug Cuttting也不负众望,同年对NDFS进行了一系列的再升级,并将其重命名为Hadoop(NDFS也改名HDFS)。Doug Cuttting也成为了大家都知道的Hadoop之父。
(Hadoop这个名字据说是Doug Cuttting儿子的黄色玩具大象的名字,就是Hadoop的logo上那只enmmmmm)
在这里插入图片描述
不能全让Yahoo占了风头,紧接着Google发表了一篇论文来介绍自己的BigTable有多牛逼的数据处理能力。Doug Cuttting也没放弃,不紧不慢的在自己的hadoop中也引入了BigTable,并命名为HBase。

然后就是Doug Cuttting和Google之间的激烈竞争。或许是由于Google人员众多,总能快Doug Cuttting一步研发出新产品。坚持着你出啥我学啥的原则,Doug Cuttting也没落后太多。但是正如现在这样,Hadoop的核心部分也免不了有许多Google的影子。

2008年1月,hadoop晋升为Apache软件基金会的顶级项目。同年8月,Hadoop打破世界纪录,用时20,成为最快排序1TB数据的系统,击败Google。
此后便进入了Hadoop的高速发展期,直到今日。

到现在,几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年许多大型IT公司都明显增加了Hadoop方面的投入。

二、Hadoop介绍

由上面的介绍中相信大家已经能看出,Hadoop的核心包括两部分:存储和计算。说白了就是HDFS(存储)和MapReduce(计算框架)。且具有扩充力强、成本低、效率高及可靠性强的特点。

HDFS:一个高可靠、高吞吐量的分布式文件系统。被设计用来使用在低廉的硬件上,适合超大数据集的应用程序,并以流的形式访问。

MapReduce:一个分布式的离线运算框架。
这里引入一下YARN:一个新的MapReduce框架,一个资源管理调度系统。

三、Hadoop的优势

1、存储与计算节点可以动态增添;部分框架可以按需替换。

2、在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

3、数据自动备份,副本丢失后自动回复。

4、运行在廉价的机器上。

5、擅长处理PB级别的离线计算

我的Hadoop系列框架

在这里插入图片描述
本篇文章也就算是讲解了Hadoop和它的历史啦~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章