本篇文章主要整理了筆者學習大數據時整理的一些文章,文章是從環境搭建到整個大數據生態圈的常用技術整理,環境希望可以幫助到剛學習大數據到童鞋,大家在學習過程中有問題可以隨時評論回覆!
大數據生態圈涉及技術:
Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala、Python、Kafka、Flume、Sqoop、Zookeeper
大數據生態圈技術圖:
一、大數據入門環境搭建整理(集羣、環境配置)
3、CentOS7設置靜態IP以及windows下ping不通虛擬機、虛擬機ping不通外網解決方案
5、Linux(CentOS7)設置主機名及IP映射(用於hadoop單機/僞分佈式/分佈式/集羣配置)
6、Winodws下使用VMware克隆、移出、快照Linux系統
7、Linux下yum方式安裝mysql 以及卸載mysql
8、linux(Centons7)下重置root密碼超詳細步驟
9、linux下配置ssh免密(用於Hadoop高可用集羣)
10、Linux系統xshell安裝上傳下載文件命令rz sz
11、Linux下zookeeper單機、僞分佈式、分佈式環境搭建(本篇主要介紹分佈式用於Hadoop高可用集羣)
二、大數據入門系列教程合集(生態圈技術安裝配置使用)
【Hadoop篇】
1、大數據入門教程系列之Hadoop環境搭建--Hadoop單機/僞分佈式搭建配置
2、基於centons7安裝配置apache hadoop(mac)
3、大數據入門教程系列之Hadoop環境搭建--Hadoop集羣/分佈式搭建配置
4、大數據入門教程系列之Hadoop環境搭建--Hadoop高可用集羣搭建配置
5、大數據入門教程系列之Hadoop環境搭建--新建Hadoop用戶
6、大數據入門教程系列之HDFS分佈式文件系統--idea下使用java API操作HDFS分佈式文件系統
7、大數據入門教程系列之mapreduce--idea下使用java API操作mapreduce完成wordcount案例
8、大數據入門教程系列之HDFS分佈式文件系統--shell命令操作HDFS分佈式文件系統
【Hive篇】
1、大數據入門教程系列之Hive環境搭建--Linux(Centons7)下配置安裝Hive
【Hbase篇】
【Flume篇】
1、Centons7下安裝配置Flume、Linux下安裝配置Flume、Flume的簡單使用示例、Flume整合Kafka使用
【Kafka篇】
1、Centons7下安裝配置Kafka、Linux下安裝配置Kafka
【Spark篇】
1、hadoop集羣下spark環境配置並且完成wordcount案例
2、Spark中RDD的Value型Transformation算子操作(一)
3、Spark中RDD的Key-Value型Transformation算子操作(二)
三、大數據生態圈技術整理彙總(技術架構、原理、流程)
2、Hbase架構及工作原理、數據及物理模型、Hbase優化
3、Hbase常用優化、Hbae性能優化、Hbase優化經驗總結
5、Kafka架構、Kafka核心組件、Kafka工作原理、Kafka應用場景
6、在idea下使用java將Log4j日誌實時寫入Kafka(Kafka實時日誌寫入)
四、大數據常見錯誤合集(環境搭建和實際項目操作)
1、windows下運行mapreduce報錯Could not locate executable null bin winutils.exe in the Hadoop binaries 解決方案
2、windows下運行mapreduce報錯The auxService mapreduce_shuffle do 解決方案
3、Hadoop HA 高可用集羣啓動報錯 Encountered exception loading fsimage 解決方案
4、Hadoop HA 高可用集羣格式化NameNode後啓動沒有DataNode
5、Hive啓動hiveserver2報錯:Could not open client transport with JDBC Uri解決方案
6、Hive2.x版本創建表報錯:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
7、使用hive的beeline連接報錯hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解決方案
9、Hbase錯誤總結:Hbase連接不上Zookeeper
10、kafka啓動報錯is empty Please build the project first e.g. by running gradlew jar
五、大數據的離線和實時數據處理流程分析
1、
2、