Hadoop權威指南筆記二

第十四章 關於Flume

  • 設計宗旨是向Hadoop批量導入基於事件的海量數據。
  • 典型例子:利用Flume從一組web服務器中收集日誌文件,然後把這些文件中的日誌事件轉移到一個新的HDFS彙總文件中以作進一步處理,其終點通常爲HDFS。
  • Flume也可以將數據寫到其他系統中,如HBase或Solr

第十五章 關於Sqoop

  • Sqoop用來在Hadoop和關係型數據庫中傳遞數據。通過Sqoop,可以方便的將數據從關係數據庫導入到hdfs,或者將數據從hdfs導入到關係型數據庫
  • Sqoop主要通過JDBC和關係數據庫進行交互,理論上支持JDBC的database都可以使用sqoop和hdfs進行數據交互。

第十六章 關於pig

  • 一種操作hadoop的輕量級腳本語言,雅虎公司推出

第十七章 關於Hive

  • Apache Hive是一個構建於Hadoop(分佈式系統基礎架構)頂層的數據倉庫
  • 通過hive可以使用HQL語言查詢存放在HDFS上的數據
  • HQL是一種類SQL語言,這種語言最終轉化爲Map/Reduce
  • 通常用來處理離線數據,不能進行交互查詢-因爲他只能在haddoop上批量的執行hadoop

第十八章 關於Crunch

第十九章 關於Spark

  • spark的作業與作業之間產生的大規模數據集存儲在內存中,而mapreduce的數據集始終走在磁盤上加載
  • RDD的創建有三種方法:
    1. 來自於一個內存中的對象集合:sc.parallelize(1 to 10)
    2. 使用外部存儲器:sc.textFile(inputPath)
    3. 對現有RDD的轉換
  • Spark位RDD提供了兩大類的類操作:轉換(teansformation)和動作(action)。轉換是惰性的。
  • 要判斷一個操作是轉換還是動作,可以觀察其返回類型:如果返回類型是RDD,那麼它是一個轉換,否則就是一個動作。

第二十章 關於HBase

  • Apache HBase是運行於HDFS頂層的NoSQL(=Not Only SQL,泛指非關係型的數據庫)數據庫系統
  • HBase具備隨即讀寫功能,是一種面向列的數據庫
  • 列簇
  • HBase是近實時系統,支持實時查詢,而不是運行MapReduce任務

第二十一章 關於Zookper

  • zookeeper是hadoop的分佈式協調服務
  • 目的是解決分佈式一致性問題。

關於Storm

關於kafka

參考鏈接:https://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章