深入浅出介绍Hadoop

原創

2020-06-16 16:11

深入浅出介绍Hadoop

一、Hadoop的由来

1998年9月4日，一个影响世界的搜索引擎诞生于美国硅谷，就是家喻户晓的Google。

而在美国还有一位工程师Doug Cuttting对搜索引擎同样有着浓厚的兴趣，凭借着自己的一腔热血研发出了一个基于JAVA开发环境来用于文本搜索的函数库：Lucence，用于为中小型软件加入全文搜索。早期的Lucence被发布于Doug Cuttting的个人网站和SourceForge。

由于其开源及便捷的特质，Lucence在当时深受程序员的喜爱。

随着Lucence的广泛应用,Doug Cuttting的名气也逐渐壮大，2001年，Doug Cuttting进入Apache软件基金会研究开发。2004年，随着Doug Cuttting对Lucence的不断改进，他成功研制出了更加便捷的Nutch。

随后Nutch在市场上势头迅猛，逐渐盖过Lucence。甚至曾在硅谷引发一段Nutch的潮流。

随着时间的推移，再好的搜索引擎都将面临一个问题：存储体及不足。不管是Google还是Doug Cuttting，对这个问题都一度束手无策。面对这个问题，Doug Cuttting率先开发出了NDFS，一个分布式文件存储系统。成功解决了这个令各大厂商头疼的存储问题。

随着这一系列的工程，Doug Cuttting的名字已经响彻硅谷。2006年，Yahoo（雅虎）成功招安了Doug Cuttting。Doug Cuttting也不负众望，同年对NDFS进行了一系列的再升级，并将其重命名为Hadoop（NDFS也改名HDFS）。Doug Cuttting也成为了大家都知道的Hadoop之父。
（Hadoop这个名字据说是Doug Cuttting儿子的黄色玩具大象的名字，就是Hadoop的logo上那只enmmmmm）

不能全让Yahoo占了风头，紧接着Google发表了一篇论文来介绍自己的BigTable有多牛逼的数据处理能力。Doug Cuttting也没放弃，不紧不慢的在自己的hadoop中也引入了BigTable，并命名为HBase。

然后就是Doug Cuttting和Google之间的激烈竞争。或许是由于Google人员众多，总能快Doug Cuttting一步研发出新产品。坚持着你出啥我学啥的原则，Doug Cuttting也没落后太多。但是正如现在这样，Hadoop的核心部分也免不了有许多Google的影子。

2008年1月，hadoop晋升为Apache软件基金会的顶级项目。同年8月，Hadoop打破世界纪录，用时20，成为最快排序1TB数据的系统，击败Google。
此后便进入了Hadoop的高速发展期，直到今日。

到现在，几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。今年许多大型IT公司都明显增加了Hadoop方面的投入。

二、Hadoop介绍

由上面的介绍中相信大家已经能看出，Hadoop的核心包括两部分：存储和计算。说白了就是HDFS（存储）和MapReduce（计算框架）。且具有扩充力强、成本低、效率高及可靠性强的特点。

HDFS：一个高可靠、高吞吐量的分布式文件系统。被设计用来使用在低廉的硬件上，适合超大数据集的应用程序，并以流的形式访问。

MapReduce：一个分布式的离线运算框架。
这里引入一下YARN：一个新的MapReduce框架，一个资源管理调度系统。

三、Hadoop的优势

1、存储与计算节点可以动态增添；部分框架可以按需替换。

2、在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

3、数据自动备份，副本丢失后自动回复。

4、运行在廉价的机器上。

5、擅长处理PB级别的离线计算

我的Hadoop系列框架

本篇文章也就算是讲解了Hadoop和它的历史啦~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深入浅出介绍Hadoop

深入浅出介绍Hadoop

一、Hadoop的由来

二、Hadoop介绍

三、Hadoop的优势

我的Hadoop系列框架

工作中用到的脚本合集

24-5-18 X

Python爬蟲||Xpath-以豆瓣電視劇爲例

Python爬蟲||BeautifulSoup4庫-以小豬短租爲例

Python爬蟲||正則表達式與re模塊-以貓眼電影爲例

深入淺出介紹Hadoop

Hadoop基本框架介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結