大數據技術生態體系組件概述

原創

2019-03-12 16:58

大數據架構如下圖所示：

圖中涉及的技術名詞解釋如下：
1）Sqoop：sqoop是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql)間進行數據的傳遞，可以將一個關係型數據庫（例如： MySQL ,Oracle 等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。
2）Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力。
3）Kafka：Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，有如下特性：
（1）通過O(1)的磁盤數據結構提供消息的持久化，這種結構對於即使數以TB的消息存儲也能夠保持長時間的穩定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒數百萬的消息
（3）支持通過Kafka服務器和消費機集羣來分區消息。
（4）支持Hadoop並行數據加載。
4）Storm：Storm爲分佈式實時計算提供了一組通用原語，可被用於“流處理”之中，實時處理消息並更新數據庫。這是管理隊列及工作者集羣的另一種方式。 Storm也可被用於“連續計算”（continuous computation），對數據流做連續查詢，在計算時就將結果以流的形式輸出給用戶。
5）Spark：Spark是當前最流行的開源大數據內存計算框架。可以基於Hadoop上存儲的大數據進行計算。
6）Oozie：Oozie是一個管理Hdoop作業（job）的工作流程調度管理系統。Oozie協調作業就是通過時間（頻率）和有效數據觸發當前的Oozie工作流程。
7）Hbase：HBase是一個分佈式的、面向列的開源數據庫。HBase不同於一般的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。
8）Hive：hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。
10）R語言：R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件，它是一個用於統計計算和統計製圖的優秀工具。
11）Mahout:
Apache Mahout是個可擴展的機器學習和數據挖掘庫，當前Mahout支持主要的4個用例：
推薦挖掘：蒐集用戶動作並以此給用戶推薦可能喜歡的事物。
聚集：收集文件並進行相關文件分組。
分類：從現有的分類文檔中學習，尋找文檔中的相似特徵，併爲無標籤的文檔進行正確的歸類。
頻繁項集挖掘：將一組項分組，並識別哪些個別項會經常一起出現。
12）ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分佈式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

有時間再詳細闡述各組件信息。。。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據技術生態體系組件概述

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

nuget添加readme

One-Hot 編碼

Spark常用算子概述

AttributeError: 'DataFrame' object has no attribute 'map'

spark-env.sh配置參數詳解

spark重分區算子repartition和coalesce解析

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結