Hadoop學習筆記

Hadoop的幾個重要的概念

HDFS

Hadoop distributie file system(Hadoop分佈式文件系統)由Google封裝的對一個分佈式文件系統提供了一個統一的訪問接口。(意思就是:對分佈在不同的文件系統上的文件的訪問方式封裝成了hdfs)

該文件系統封裝了一些統一的接口和命令

MapReduce

mapreduce是一種分佈式計算框架。主要有Mapper和Reducer(個人的理解如下)更多詳細的,請訪問下網絡找下資源

Mapper的方式主要是對於給定的文件進行相關的處理和篩選,使之滿足reducer進行處理

· Reducer 講不同的mapper處理的結果進行彙總。

Hadoop集羣部署方式:

單機模式,僞分佈式,分佈式集羣

JobTracker

個人理解是用來管理TaskTracker的一個進程,用來發布TaskTracker,可能有問題,解釋,歡迎提出來

TaskTracker

TaskTracker進程是用來對每個Node進行數據處理的進程,如果有問題請提出來

NameNode

主節點,裏面運行了JobTracker進程

SecondNameNode

不是NameNode備份,主要存儲了HadoopMetaData的數據,最好和NameNode分開部署。

DataNode

存儲數據的節點,裏面有TaskTracke進程,裏面還存儲有hdfs的數據。

ZooKeeper

·筆者也正在學習,還不是很瞭解:現階段主要的概念是用來做負載均衡的,現在zookeeper不僅僅用在hadoop中,還存在其他的各種各樣的集羣業務當中,用來做負載均衡

Hive

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言,稱爲 HQL,它允許熟悉 SQL 的用戶查詢數據。同時,這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作(摘自百度百科)

一些非常好的學習資源的鏈接:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html

http://sishuok.com/forum/blogPost/list/6220.html

Pig(筆者也正在學習)

Pig是一種編程語言,它簡化了Hadoop常見的工作任務。Pig可加載數據、表達轉換數據以及存儲最終結果。Pig內置的操作使得半結構化數據變得有意義(如日誌文件)。同時Pig可擴展使用Java中添加的自定義數據類型並支持數據轉換。

發佈了44 篇原創文章 · 獲贊 3 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章