大數據技術之Hadoop(僞分佈搭建)

1.1 Hadoop是什麼？

1.2 Hadoop三大發行版本

Hadoop三大發行版本：Apache、Cloudera、Hortonworks。
Apache版本最原始（最基礎）的版本，對於入門學習最好。
Cloudera在大型互聯網企業中用的較多。
Hortonworks文檔較好。

1. Apache Hadoop
官網地址：http://hadoop.apache.org/releases.html
下載地址：https://archive.apache.org/dist/hadoop/common/
2. Cloudera Hadoop
官網地址：https://www.cloudera.com/downloads/cdh/5-10-0.html
下載地址：http://archive-primary.cloudera.com/cdh5/cdh/5/
（1）2008年成立的Cloudera是最早將Hadoop商用的公司，爲合作伙伴提供Hadoop的商用解決方案，主要是包括支持、諮詢服務、培訓。
（2）2009年Hadoop的創始人Doug Cutting也加盟Cloudera公司。Cloudera產品主要爲CDH，Cloudera Manager，Cloudera Support
（3）CDH是Cloudera的Hadoop發行版，完全開源，比Apache Hadoop在兼容性，安全性，穩定性上有所增強。
（4）Cloudera Manager是集羣的軟件分發及管理監控平臺，可以在幾個小時內部署好一個Hadoop集羣，並對集羣的節點及服務進行實時監控。Cloudera Support即是對Hadoop的技術支持。
（5）Cloudera的標價爲每年每個節點4000美元。Cloudera開發並貢獻了可實時處理大數據的Impala項目。
3. Hortonworks Hadoop
官網地址：https://hortonworks.com/products/data-center/hdp/
下載地址：https://hortonworks.com/downloads/#data-platform
（1）2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建。
（2）公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師，上述工程師均在2005年開始協助雅虎開發Hadoop，貢獻了Hadoop80%的代碼。
（3）雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。
（4）Hortonworks的主打產品是Hortonworks Data Platform（HDP），也同樣是100%開源的產品，HDP除常見的項目外還包括了Ambari，一款開源的安裝和管理系統。
（5）HCatalog，一個元數據管理系統，HCatalog現已集成到Facebook開源的Hive中。Hortonworks的Stinger開創性的極大的優化了Hive項目。Hortonworks爲入門提供了一個非常好的，易於使用的沙盒。
（6）Hortonworks開發了很多增強特性並提交至核心主幹，這使得Apache Hadoop能夠在包括Window Server和Windows Azure在內的Microsoft Windows平臺上本地運行。定價以集羣爲基礎，每10個節點每年爲12500美元。

1.3 Hadoop組成

1.3.1 HDFS架構概述
HDFS（Hadoop Distributed File System）的架構概述，如圖所示。

1.3.2 YARN架構概述
YARN架構概述，如圖所示。

1.3.3 MapReduce架構概述
MapReduce將計算過程分爲兩個階段：Map和Reduce，如圖所示
1）Map階段並行處理輸入數據
2）Reduce階段對Map結果進行彙總

1.4 大數據技術生態體系

圖中涉及的技術名詞解釋如下：
1）Sqoop：Sqoop是一款開源的工具，主要用於在Hadoop、Hive與傳統的數據庫(MySql)間進行數據的傳遞，可以將一個關係型數據庫（例如：MySQL，Oracle 等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。
2）Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力。
3）Kafka：Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，有如下特性：
（1）通過O(1)的磁盤數據結構提供消息的持久化，這種結構對於即使數以TB的消息存儲也能夠保持長時間的穩定性能。
（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒數百萬的消息。
（3）支持通過Kafka服務器和消費機集羣來分區消息。
（4）支持Hadoop並行數據加載。
4）Storm：Storm用於“連續計算”，對數據流做連續查詢，在計算時就將結果以流的形式輸出給用戶。
5）Spark：Spark是當前最流行的開源大數據內存計算框架。可以基於Hadoop上存儲的大數據進行計算。
6）Oozie：Oozie是一個管理Hdoop作業（job）的工作流程調度管理系統。
7）Hbase：HBase是一個分佈式的、面向列的開源數據庫。HBase不同於一般的關係數據庫，它是一個適合於非結構化數據存儲的數據庫。
8）Hive：Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供簡單的SQL查詢功能，可以將SQL語句轉換爲MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。
10）R語言：R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件，它是一個用於統計計算和統計製圖的優秀工具。
11）Mahout：Apache Mahout是個可擴展的機器學習和數據挖掘庫。
12）ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分佈式系統的可靠協調系統，提供的功能包括：配置維護、名字服務、分佈式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

2.1 Hadoop運行環境搭建

2.1.1 虛擬機環境準備

1.安裝VMware Workstation Pro
下載網址：https://my.vmware.com/en/web/vmware/downloads
2.下載鏡像源centos7
下載網址：http://isoredirect.centos.org/centos/8/isos/x86_64/CentOS-8.1.1911-x86_64-dvd1.iso
3.創建新的虛擬機

2.1.2 虛擬機網絡配置

1.外部網絡配置
1.1控制面板\網絡和 Internet\網絡連接
1.2打開VMware Network Adapter VMnet8屬性
1.3找到internet協議版本4（TCP/Pv4）進行設置，如下圖所示。

2.虛擬機網絡配置
2.1編輯/虛擬機網絡編輯器
2.2更改設置/NAT模式（注意子網ip在最後一位寫0，NAT設置裏網關與外部對應）

3.內部網絡配置
3.1 vi /etc/sysconfig/network-scripts/ifcfg-ens33

3.2 service network restart（網絡生效）
3.3 ping www.baidu.com(檢測網絡連接)

2.1.3 HADOOP僞分佈搭建

1. 打開Xshell 6
填寫主機名、鏈接、用戶名、密碼
2. 進入界面先下載vim
下載vim：yum install vim
3. 開始配置
3.1

         cd /usr/local  （進入目錄）
         ll            （查看目錄信息）
         mkdir hadoop
         mkdir java      （創建目錄）

3.2 拖文件
3.2.1 Hadoop架包hadoop -2.9.2.tar.gz 下載網址：https://hadoop.apache.org/releases.html
3.2.2 Java架包 jdk-8uzll-linux-x64.tar.gz 下載網址：https://www.oracle.com/technetwork/java/javase/downloads/index.html

        cd hadhoop/     (切換到Hadoop目錄下)
        ll               （查看目錄信息）
        tar –zxvf hadoop -2.9.2.tar.gz （解壓Hadoop） 
        rm –rf hadoop -2.9.2.tar.gz （刪除Hadoop解壓包）
        cd ../java （到java目錄下）
        tar –zxvf jdk-8uzll-linux-x64.tar.gz解壓java） 
        rm –rf jdk-8uzll-linux-x64.tar.gz （刪除java解壓包）

3.4配置環境變量

       vim /etc/profile (進入vim編輯器改路徑)

export JAVA_HOME=/usr/local/java/jdk1.8.0_211
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.9.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

       配置文件生效：source /etc/profile

3.5 配置Hadoop環境變量

       cd /usr/local/hadoop/hadoop -2.9.21/etc/hadoop/   (進入Hadoop目錄下)

1.第一個配置

        vim hadoop –env.sh

第25行改Java路徑

        export JAVA_HOME=/usr/local/java/jdk1.8.0_211/

2.第二個配置（注意主機IP和Hadoop版本）

       vim core –site.xml

<!-- 指定HADOOP所使用的文件系統schema（URI），HDFS的老大（NameNode）的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.222.101:9000</value>
</property>
<!-- 指定hadoop運行時產生文件的存儲目錄 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-2.9.2/tmp</value>
</property>

3.第三個配置

        vim hdfs –site.xml

<!-- 指定HDFS副本的數量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!--獲取文件夾寫入權限-->
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>

3.6進行格式化並啓動

        hadoop namenode –format
        start-dfs.sh（輸3遍yes和密碼）

3.7輸入jps驗證是否配置成功

4. 關閉防火牆

        systemctl stop firewalld.service（臨時）
        systemctl disable firewalld.service（開機時關閉）

5. 免密

       ssh-keygen -t rsa（一直按回車）
       拷貝密鑰（開啓時不要輸三次密碼）
       ssh-copy-id 192.168.222.101

6.谷歌訪問：http://192.168.222.101:50070/

大數據技術之Hadoop(僞分佈搭建)

大數據技術之Hadoop(僞分佈搭建)

1.1 Hadoop是什麼？

1.2 Hadoop三大發行版本

1.3 Hadoop組成

1.4 大數據技術生態體系

2.1 Hadoop運行環境搭建

2.1.1 虛擬機環境準備

2.1.2 虛擬機網絡配置

2.1.3 HADOOP僞分佈搭建

大數據技術之Hadoop（YARN的搭建）與SHELL腳本（集羣分發腳本xsync）

pyqt5事件與鼠標事件

大數據技術之Hadoop(僞分佈搭建)

Python在linux下與windows下的一些區別

大數據技術之Flume

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結