Hadoop v3.1 大數據技術快速入門

原創

Rickie

2022-06-21 15:02

Hadoop 是由 Java 語言編寫的，在分佈式服務器集羣上存儲海量數據並運行分佈式分析應用的開源框架，其核心部件是 HDFS 與 MapReduce。

HDFS 爲海量的數據提供了存儲，而 MapReduce 爲海量的數據提供了計算。

可以把 HDFS 理解爲一個分佈式的，有冗餘備份的，可以動態擴展的用來存儲大規模數據的大硬盤。

把 MapReduce 理解成爲一個計算引擎，按照 MapReduce 的規則編寫 Map 計算 Reduce 計算的程序，可以完成計算任務。

YARN：Hadoop 2 開始使用的資源管理框架。

HBase：Google分佈式數據庫Bigtable的開源實現，是一個高可靠、高性能、面向列、可伸縮的分佈式數據庫，主要用來存儲非結構化和半結構化的鬆散數據。爲了提高數據可靠性和健壯性，發揮HBase處理大數據量等功能，一般使用HDFS作爲HBase的底層數據存儲方式。

MapReduce：分佈式計算框架。

Hive：是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供完整的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。

技術專欄主要包含如下內容：

Hadoop大數據技術生態系統和基礎知識
CentOS 7 單機安裝最新版Hadoop v3.1.2以及配置和簡單測試
Hadoop v3.1.2 單機僞分佈式安裝、配置和測試
Hadoop分佈式文件系統HDFS核心概念、體系結構和數據讀寫過程
Hadoop分佈式文件系統HDFS 常用API以及應用實例
Java應用中HDFS客戶端遠程連接Hadoop FileSystem異常情況分析和解決辦法
Hadoop列式數據庫HBase 數據模型、系統架構和運行機制-快速入門
列式數據庫HBase v2.2.3 最新版安裝單機模式、啓動和簡單練習shell命令
列式數據庫HBase v2.2.3 最新版僞分佈式模式配置、啓動運行
大數據快速讀寫-HBase 常用的Shell命令
大數據快速讀寫-HBase Java API編程實例-HBaseConn和HBaseUtil工具類
大數據快速讀寫-HBase Java API編程實例-單元測試和shell命令驗證
HBase表的設計原則，包括預分區、列族設計、RowKey設計
【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-1
【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-2
【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-3
【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-4
Hadoop分佈式離線計算框架-MapReduce體系結構和工作流程
Hadoop分佈式離線計算框架-MapReduce和YARN
MapReduce編程實踐-基於IDEA/Maven實現單詞詞頻統計-Part 1
MapReduce編程實踐-基於IDEA/Maven實現單詞詞頻統計-Part 2
Hadoop集羣資源管理調度框架-YARN
YARN/MapReduce編程實踐-WordCount on YARN代碼編寫
YARN/MapReduce編程實踐-WordCount on YARN編譯打包運行
YARN/MapReduce編程實踐-實現文件合併和去重
YARN/MapReduce編程實踐-實現對輸入文件的排序
Hadoop v3.1大數據技術快速入門技術專欄-項目實例源代碼
Hadoop數據倉庫框架Hive快速入門-簡介、系統架構和執行流程
Hadoop數據倉庫框架-Hive v3.1.2最新版安裝和配置（含MySQL）-Part 1
Hadoop數據倉庫框架-Hive v3.1.2最新版安裝和配置（含MySQL）-Part 2
Hive編程實踐-Hive中常用HiveQL操作
Hive編程實踐-分區表（Partition）和分桶表（Bucket）-Part 1
Hive編程實踐-分區表（Partition）和分桶表（Bucket）-Part 2
Hive編程實踐-Hive ACID和事務表支持的詳細操作和快速入門
Hive編程實踐-WordCount應用實例
Hive編程實踐-內置函數和用戶自定義函數（含示例項目源代碼）-Part 1
Hive編程實踐-內置函數和用戶自定義函數（含示例項目源代碼）-Part 2
Hive編程實踐-通過Java和JDBC驅動訪問Hive，附實例項目源代碼
Hive高級特性-HiveServer2配置啓動和Beeline的基本操作
Impala 實時性交互查詢分析工具
Hadoop和關係型數據庫的數據傳輸工具-Sqoop入門
分佈式消息隊列Kafka-數據交互樞紐
Apache Kudu構建高性能實時數據分析存儲系統 -入門簡介

從實戰出發，通過理論講解-環境搭建-項目案例實戰，讓初學者快速掌握hadoop大數據技術。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop v3.1 大數據技術快速入門

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

LangChain輕鬆入門和開發實踐

Hugging Face 輕鬆入門

PyTorch深度學習零基礎入門

Spring Security OAuth2+JWT開發實踐

Spring Security開發實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結