Hadoop學習筆記

Hadoop的幾個重要的概念

HDFS

Hadoop distributie file system（Hadoop分佈式文件系統）由Google封裝的對一個分佈式文件系統提供了一個統一的訪問接口。（意思就是：對分佈在不同的文件系統上的文件的訪問方式封裝成了hdfs）

該文件系統封裝了一些統一的接口和命令

MapReduce

mapreduce是一種分佈式計算框架。主要有Mapper和Reducer（個人的理解如下）更多詳細的，請訪問下網絡找下資源

Mapper的方式主要是對於給定的文件進行相關的處理和篩選，使之滿足reducer進行處理

· Reducer 講不同的mapper處理的結果進行彙總。

Hadoop集羣部署方式：

單機模式，僞分佈式，分佈式集羣

JobTracker

個人理解是用來管理TaskTracker的一個進程，用來發布TaskTracker，可能有問題，解釋，歡迎提出來

TaskTracker

TaskTracker進程是用來對每個Node進行數據處理的進程，如果有問題請提出來

NameNode

主節點，裏面運行了JobTracker進程

SecondNameNode

不是NameNode備份，主要存儲了HadoopMetaData的數據，最好和NameNode分開部署。

DataNode

存儲數據的節點，裏面有TaskTracke進程，裏面還存儲有hdfs的數據。

ZooKeeper

·筆者也正在學習，還不是很瞭解：現階段主要的概念是用來做負載均衡的，現在zookeeper不僅僅用在hadoop中，還存在其他的各種各樣的集羣業務當中，用來做負載均衡

Hive

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化加載(ETL)，這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱爲 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作（摘自百度百科）

一些非常好的學習資源的鏈接：http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html

http://sishuok.com/forum/blogPost/list/6220.html

Pig（筆者也正在學習）

Pig是一種編程語言，它簡化了Hadoop常見的工作任務。Pig可加載數據、表達轉換數據以及存儲最終結果。Pig內置的操作使得半結構化數據變得有意義（如日誌文件）。同時Pig可擴展使用Java中添加的自定義數據類型並支持數據轉換。

一直往前不要停

發佈了44 篇原創文章 · 獲贊 3 · 訪問量 3萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop學習筆記

關於遊戲付費的一點想法

我通過CKA和CKS啦！

Java內存分區（深入理解java虛擬機學習筆記）

選擇合適的數據庫

虛擬機對象學習（學習筆記深入理解java虛擬機）

Netty關鍵詞

簡單的java獲取系統的參數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結