Hadoop简介

以下Hadoop的简介是从百度百科上搜索到的,完全是为了普及下概念知识,记录下!

公司有DFS,看简介跟HDFS很项,呵,想了解下

另外HBase,在09年第一个项目的数据库设计时当时老大建议我把表设成按属性例来存储,但是终究还是存储在数据库,当时我没有赞同! Hbase让我有兴趣去了解下。


Hadoop一个分布式系统基础架构。主要是由HDFS、MapReduce和Hbase组成。

HDFS是Google File System(GFS)的开源实现。
MapReduce是Google MapReduce的开源实现。

HBase是Google BigTable的开源实现。


Hadoop框架图如下:



HDFS把节点分成两类:NameNode和DataNode。NameNode是唯一的,程序与之通信,然后从DataNode上存取文件。这些操作是透明的,与普通的文件系统API没有区别。

  MapReduce则是JobTracker节点为主,分配工作以及负责和用户程序通信。
  HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算。
  Hadoop也跟其他云计算项目有共同点和目标:实现海量数据的计算。而进行海量计算需要一个稳定的,安全的数据容器,才有了Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)。
  HDFS通信部分使用org.apache.hadoop.ipc,可以很快使用RPC.Server.start()构造一个节点,具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写,NameNode/DataNode的通信等。
  MapReduce主要在org.apache.hadoop.mapred,实现提供的接口类,并完成节点通信(可以不是hadoop通信接口),就能进行MapReduce运算。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章