第十四章 關於Flume
- 設計宗旨是向Hadoop批量導入基於事件的海量數據。
- 典型例子:利用Flume從一組web服務器中收集日誌文件,然後把這些文件中的日誌事件轉移到一個新的HDFS彙總文件中以作進一步處理,其終點通常爲HDFS。
- Flume也可以將數據寫到其他系統中,如HBase或Solr
第十五章 關於Sqoop
- Sqoop用來在Hadoop和關係型數據庫中傳遞數據。通過Sqoop,可以方便的將數據從關係數據庫導入到hdfs,或者將數據從hdfs導入到關係型數據庫
- Sqoop主要通過JDBC和關係數據庫進行交互,理論上支持JDBC的database都可以使用sqoop和hdfs進行數據交互。
第十六章 關於pig
- 一種操作hadoop的輕量級腳本語言,雅虎公司推出
第十七章 關於Hive
- Apache Hive是一個構建於Hadoop(分佈式系統基礎架構)頂層的數據倉庫
- 通過hive可以使用HQL語言查詢存放在HDFS上的數據
- HQL是一種類SQL語言,這種語言最終轉化爲Map/Reduce
- 通常用來處理離線數據,不能進行交互查詢-因爲他只能在haddoop上批量的執行hadoop
第十八章 關於Crunch
第十九章 關於Spark
- spark的作業與作業之間產生的大規模數據集存儲在內存中,而mapreduce的數據集始終走在磁盤上加載
- RDD的創建有三種方法:
- 來自於一個內存中的對象集合:sc.parallelize(1 to 10)
- 使用外部存儲器:sc.textFile(inputPath)
- 對現有RDD的轉換
- Spark位RDD提供了兩大類的類操作:轉換(teansformation)和動作(action)。轉換是惰性的。
- 要判斷一個操作是轉換還是動作,可以觀察其返回類型:如果返回類型是RDD,那麼它是一個轉換,否則就是一個動作。
第二十章 關於HBase
- Apache HBase是運行於HDFS頂層的NoSQL(=Not Only SQL,泛指非關係型的數據庫)數據庫系統
- HBase具備隨即讀寫功能,是一種面向列的數據庫
- 列簇
- HBase是近實時系統,支持實時查詢,而不是運行MapReduce任務
第二十一章 關於Zookper
- zookeeper是hadoop的分佈式協調服務
- 目的是解決分佈式一致性問題。
關於Storm
關於kafka
參考鏈接:https://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/