Hadoop v3.1 大數據技術快速入門

Hadoop 是由 Java 語言編寫的,在分佈式服務器集羣上存儲海量數據並運行分佈式分析應用的開源框架,其核心部件是 HDFS 與 MapReduce。
HDFS 爲海量的數據提供了存儲,而 MapReduce 爲海量的數據提供了計算。
可以把 HDFS 理解爲一個分佈式的,有冗餘備份的,可以動態擴展的用來存儲大規模數據的大硬盤。
把 MapReduce 理解成爲一個計算引擎,按照 MapReduce 的規則編寫 Map 計算 Reduce 計算的程序,可以完成計算任務。
YARN:Hadoop 2 開始使用的資源管理框架。
HBase:Google分佈式數據庫Bigtable的開源實現,是一個高可靠、高性能、面向列、可伸縮的分佈式數據庫,主要用來存儲非結構化和半結構化的鬆散數據。爲了提高數據可靠性和健壯性,發揮HBase處理大數據量等功能,一般使用HDFS作爲HBase的底層數據存儲方式。
MapReduce:分佈式計算框架。
Hive:是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。
技術專欄主要包含如下內容:
  • Hadoop大數據技術生態系統和基礎知識
  • CentOS 7 單機安裝最新版Hadoop v3.1.2以及配置和簡單測試
  • Hadoop v3.1.2 單機僞分佈式安裝、配置和測試
  • Hadoop分佈式文件系統HDFS核心概念、體系結構和數據讀寫過程
  • Hadoop分佈式文件系統HDFS 常用API以及應用實例
  • Java應用中HDFS客戶端遠程連接Hadoop FileSystem異常情況分析和解決辦法
  • Hadoop列式數據庫HBase 數據模型、系統架構和運行機制-快速入門
  • 列式數據庫HBase v2.2.3 最新版安裝單機模式、啓動和簡單練習shell命令
  • 列式數據庫HBase v2.2.3 最新版僞分佈式模式配置、啓動運行
  • 大數據快速讀寫-HBase 常用的Shell命令
  • 大數據快速讀寫-HBase Java API編程實例-HBaseConn和HBaseUtil工具類
  • 大數據快速讀寫-HBase Java API編程實例-單元測試和shell命令驗證
  • HBase表的設計原則,包括預分區、列族設計、RowKey設計
  • 【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-1
  • 【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-2
  • 【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-3
  • 【項目實例】基於Elasticsearch對HBase中的數據建立二級索引實現海量數據快速查詢-4
  • Hadoop分佈式離線計算框架-MapReduce體系結構和工作流程
  • Hadoop分佈式離線計算框架-MapReduce和YARN
  • MapReduce編程實踐-基於IDEA/Maven實現單詞詞頻統計-Part 1
  • MapReduce編程實踐-基於IDEA/Maven實現單詞詞頻統計-Part 2
  • Hadoop集羣資源管理調度框架-YARN
  • YARN/MapReduce編程實踐-WordCount on YARN代碼編寫
  • YARN/MapReduce編程實踐-WordCount on YARN編譯打包運行
  • YARN/MapReduce編程實踐-實現文件合併和去重
  • YARN/MapReduce編程實踐-實現對輸入文件的排序
  • Hadoop v3.1大數據技術快速入門技術專欄-項目實例源代碼
  • Hadoop數據倉庫框架Hive快速入門-簡介、系統架構和執行流程
  • Hadoop數據倉庫框架-Hive v3.1.2最新版安裝和配置(含MySQL)-Part 1
  • Hadoop數據倉庫框架-Hive v3.1.2最新版安裝和配置(含MySQL)-Part 2
  • Hive編程實踐-Hive中常用HiveQL操作
  • Hive編程實踐-分區表(Partition)和分桶表(Bucket)-Part 1
  • Hive編程實踐-分區表(Partition)和分桶表(Bucket)-Part 2
  • Hive編程實踐-Hive ACID和事務表支持的詳細操作和快速入門
  • Hive編程實踐-WordCount應用實例
  • Hive編程實踐-內置函數和用戶自定義函數(含示例項目源代碼)-Part 1
  • Hive編程實踐-內置函數和用戶自定義函數(含示例項目源代碼)-Part 2
  • Hive編程實踐-通過Java和JDBC驅動訪問Hive,附實例項目源代碼
  • Hive高級特性-HiveServer2配置啓動和Beeline的基本操作
  • Impala 實時性交互查詢分析工具
  • Hadoop和關係型數據庫的數據傳輸工具-Sqoop入門
  • 分佈式消息隊列Kafka-數據交互樞紐
  • Apache Kudu構建高性能實時數據分析存儲系統 -入門簡介
 
從實戰出發,通過理論講解-環境搭建-項目案例實戰,讓初學者快速掌握hadoop大數據技術。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章