大數據——Hadoop生態系統

原創

2019-10-26 05:54

首先，我們來介紹一下什麼是Hadoop。

Hadoop最核心的部件有兩個，一爲HDFS，所謂的HDFS，就是分佈式的文件存儲系統。

二爲Mapreduce，即爲分佈式的計算系統（分佈式離線的計算框架）。

上述的兩個部件，解決了大數據的存儲問題，還有解決了大數據的計算問題。

剩下的基本上都是這兩個所衍生出來的工具。

Maperduce的編程語言:

1、Jave（最原始的方式）

2、Hadoop Streaming（支持多語言）

3、Hadoop Pipes(支持C和C++)

Mahout提供的算法：分類、聚類、頻繁模式挖掘、向量相似度計算、推薦引擎、降維、進化算法、迴歸分析等

Hive：是構建在Hadoop之上的數據倉庫，用於解決海量結構化的日誌數據的統計問題，其語言結構HQL，類似於SQL，但又不完全相同。

Pig:基於Hadoop的數據流執行引擎，利用MapReduce並行處理數據，使用Pig Latin語言表達數據流

Hive:即就是Hive2(Stinger)，底層的算法引擎由Tez(DGA計算框架）替換MapReduce

Impala:可直接處理存儲在HDFS上的數據，並在次寫入數據到HDFS，具有良好的擴展性和容錯性，適合快速交互式查詢。

Oozie:

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

芯片產業管理和營銷指北（3）—— 贏得客戶

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書爲什麼要見客戶和客戶面對面主要是獲取與客戶相關的各類信息，包含但不限於：市

2024-06-09 14:34:09

【stars-one】星念輕小說下載器

原文: 【stars-one】星念輕小說下載器-Stars-One的雜貨小窩一款將在線輕小說保存到本地的下載工具軟件介紹小說單卷下載小說全卷下載(需VIP) 多線程解析和下載下載導出爲epub文件自動更新軟件使用前需要進行

2024-06-09 14:22:28

shell編程相關的

shell腳本獲取腳本所在目錄執行腳本的父目錄不一定是當前的工作目錄。 url=$(dirname $(readlink -f $0))

2024-06-09 14:16:47

kvm鏈接克隆虛擬機遷移到openstack機器的實驗

總結如果是完整克隆的那種虛擬機，是可以直接在openstack使用的，如果鏡像格式沒問題的話。因爲kvm虛擬機大部分都是鏈接克隆出來的鏡像，不可用直接複製使用，所以需要創建新的鏡像文件創建空盤：qemu-img creat

2024-06-09 14:16:47

【Python】DQN處理CartPole-v1

DQN是強化學習中的一種方法，是對Q-Learning的擴展。通過引入深度神經網絡、經驗回放和目標網絡等技術，使得Q-Learning算法能夠在高維、連續的狀態空間中應用，解決了傳統Q-Learning方法在這些場景下的侷限性。 Q-Le

2024-06-09 14:14:07

P1355 神祕大三角（凸包）

P1355 神祕大三角 - 洛谷 | 計算機科學教育新生態 (luogu.com.cn) 隊友推薦的，算是入門凸包，就是用叉積判斷一下點是否相對每條邊都在凸包的邊的左側。 1 #include <bits/stdc++.h> 2

2024-06-09 14:13:17

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

這一章把直線連接改爲折線連接，沿用原來連接點的關係信息。關於折線的計算，使用的是開源的 AStar 算法進行路徑規劃，啓發方式爲曼哈頓距離，且不允許對角線移動。請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了 Bug，歡

2024-06-09 14:10:57

生產計劃範圍的擴展 - 工單的拆分與合併

背景　　在過往與不少合作伙伴們，就生產計劃項目方案的討論中，經常提及這樣的一種情況： “我們在編制生產計劃時，有些數量較大的訂單，需要拆分成多個子訂單，這樣才能利用多個資源並行加工，以縮短生產週期，提高資源利用率” - 我們稱爲【工單拆分

2024-06-09 14:09:57

APS系統設計經驗分享(時間推導II - 2023.09)

　　在前一篇關於APS系統設計分享文章(《APS系統設計經驗分享(時間推導 - 2023.03)》)中，我們提到將會分享使用OptaPlanner作爲規劃引擎開發APS系統過程中，遇到的一些時間相關的設計建議與異常情況分析。後來一直忙於項目

2024-06-09 14:09:57

排程過程中任務鎖定的外延與內涵

在生產排程過程中，除了可以藉助強大的算法，與優質的規劃模型對待排任務進行排產優化外，還會遇到一些需要人爲鎖定部分任務的情況。無論是APS系統開發人員，還是排產作業人員，在常見的認識中，對於“鎖定”概念的理解，第一反應就是把任務固定到某個資源

2024-06-09 14:09:57

排程系統中關於任務優先級的需求延伸與設計構思

無論是面向銷售訂單的MPS，還是基於多工序制約關係的APS，還是具體車間生產中針對單一工序的任務作業調度優化，都存在基於被排程對象(例如銷售訂單、生產工單、工序任務)的優先級進行優化的需求場景。當我們僅在宏觀、較高層次的角度考慮，任務優先級

2024-06-09 14:09:57

從零手寫實現 nginx-11-文件處理邏輯與 range 範圍查詢合併

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-09 14:02:36

nginx快速分析日誌並找出攻擊IP

第一步：分析NGINX日誌分析日誌主要目的是尋找那些異常活躍的IP地址，通過以下命令可以快速找出。 cat access.log | awk '{print$1}' |sort|uniq -c|sort -rn|head -10 命

2024-06-09 13:59:16

Vue CLI 4與項目構建實戰指南

title: Vue CLI 4與項目構建實戰指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 這篇文章介紹瞭如何使用Vue CLI優化項目構建配置，提高開發效率，涉及配置管理、項目部署策略、插件系

2024-06-09 13:40:15

Vue第三方庫與插件實戰手冊

title: Vue第三方庫與插件實戰手冊 date: 2024/6/8 updated: 2024/6/8 excerpt: 這篇文章介紹瞭如何在Vue框架中實現數據的高效驗證與處理，以及如何集成ECharts、D3.js、Chart.

2024-06-09 13:40:15

24小時熱門文章

最新文章

最新評論文章