Hadoop編程實踐

以下是我雲計算實驗的作業,完成作業的過程中碰到了許多問題,但是最後都一一解決了,這個過程蠻痛苦的,但是完成的一瞬間如釋重負,有問題歡迎大家與我交流!

一、題目要求及說明

(1)每人在自己本地電腦上正確安裝和運行僞分佈式Hadoop系統。

(2)安裝完成後,自己尋找一組英文網頁數據,在本機上運行Hadoop系統自帶的WordCount可執行程序文件,併產生輸出結果。

(3)實現並測試矩陣相乘程序(選做)

二、操作過程及代碼

1、安裝虛擬機軟件VMware Workstation,並進入網址https://ubuntu.com/download/desktop下載Ubuntu鏡像。

2、使用指令sudo useradd -m lyd40213 -s /bin/bash創建用戶lyd40213,使用指令sudo passwd lyd40213 爲用戶設置密碼。使用指令sudo adduser lyd40213 sudo增加管理員權限。之後註銷用戶,使用lyd40213登錄。

3、根據CSDN博客學習安裝VMware Tools後,點擊VMware Workstation窗口左上方的“虛擬機”、“設置”, 彈出的對話框中依次點擊“選項”、“共享文件夾”、“下一步”,新建共享文件夾,使Windows系統與虛擬機內的Ubuntu可以進行交互。

4、將在以下網址提前下載好的jdk和hadoop的安裝包放到本機的共享文件夾中,使用指令ls我們可以看到兩個安裝包,如圖所示。

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

https://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.10.1/

5、使用指令sudo apt-get update更新apt-get。

6、使用指令apt-get install openssh-server,安裝ssh服務,之後使用指令apt-get install vim ,安裝vim編輯器。

7、依次使用指令ufw disable  、ufw status來禁用防火牆。之後cd ~/.ssh、ssh-keygen  -t  rsa兩條語句,生成免密密鑰對。使用ssh-copy-id localhost指令將公鑰複製到localhost,未成功,之後使用cat  ./id_rsa.pub >> ./authorized_keys,完成複製。使用ssh localhost完成測試,不需要登錄密碼,如圖。之後退出,進行jdk和hadoop的配置。

8、首先配置jdk,使用mkdir -/app創建/app文件夾,作爲jdk和hadoop的安裝文件夾。之後對共享文件夾內的壓縮包進行解壓,使用tar -zxvf /mnt/hgfs/vmshare/jdk-8u271-linux-x64.tar.gz -C ~/app指令,之後使用mv ~/app/jdk1.8.0_271 ~/app/jdk指令進行更名。

9、配置文件:vim編輯器

指令vim ~/.bashrc進行編輯,將以下代碼添加到文件尾。

                  export JAVA_HOME=/home/lyd40213/app/jdk
     export JRE_HOME=$JAVA_HOME/jre
     export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
     export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin


指令source ~/.bashrc,文件編譯成功,測試jdk,如圖1.8.0.271

10、配置hadoop,使用tar -zxvf /mnt/hgfs/vmshare/hadoop-2.10.1.tar.gz -C ~/app 進行解壓,之後使用指令mv ~/app/hadoop-2.10.1 ~/app/lyd40213進行改名。之後換到超級模式使用指令sudo chown -R lyd40213 ./ hadoop修改權限。

11、使用指令vim ~/.bashrc,修改文件,在文件尾添加如下兩條指令。使用指令source ~/.bashrc 進行編譯生效。

export HADOOP_HOME=/app/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

12.、使用指令vim ~/app/hadoop/etc/hadoop/hadoop-env.sh,找到export JAVA_HOME=${JAVA_HOME}這一行,將其修改爲:export JAVA_HOME=/home/hadoop/app/jdk。

13、配置core-site.xml,直接在目錄/app/hadoop/etc/hadoop/中找到它,進行修改,

<configuration>

</configuration>

更改爲

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/app/hadoop/tmp</value> <!--該目錄需要手動創建 -->
</property>
</configuration>








配置hdfs-site.xml

<configuration>

</configuration>

更改爲

<configuration>
<property>

<!--配置塊的副本數 -->
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>



配置mapred-site.xml

<configuration>

</configuration>

更改爲

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>




 

配置yarn-site.xml

<configuration>

</configuration>

更改爲

<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>



14、運行hadoop,初始化:先cd ~/app/hadoop/bin,之後./hadoop namenode -format。使用指令cd ~/app/hadoop/sbin和./start-all.sh運行hadoop。jps查看6個進程。如圖:

15、測試wordcount程序,使用以下指令

mkdir ~/tmp

 

echo'In the physical sciences, progress in understanding large complex systems has often come by approximating their constituents with random variables; for example, statistical physics and thermodynamics are based in this paradigm. Since modern neural networks are undeniably large complex systems, it is natural to consider what insights can be gained by approximating their parameters with random variables. Moreover, such random configurations play at least two privileged roles in neural networks: they define the initial loss surface for optimization, and they are closely related to random feature and kernel methods. Therefore it is not surprising that random neural networks have attracted significant attention in the literature over the years' > ~/tmp/word1.txt

 

echo'Throughout this work we will be relying on a number of basic concepts from random matrix theory. Here we provide a lightning overview of the essentials, but refer the reader to the more pedagogical literature for background' > ~/tmp/word2.txt

之後,指令./hdfs dfs -mkdir /input,在hdfs上新建目錄,指令./hdfs dfs -put  ~/tmp/word*.txt  /input上傳文件,指令./hadoop jar ~/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar wordcount /input output運行wordcount程序。跑通程序如圖:

16、指令 ./hdfs dfs -cat /user/lyd40213/output/part-r-00000查看結果。

17、在hadoop根目錄下新建一個叫做local_matrix的文件夾,之後將MartrixMultiplication.java放在裏面,MartrixMultiplication.java內容爲:

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class MartrixMultiplication{
  public static class MartrixMapper extends Mapper<Object, Text, Text, Text>{
    private Text map_key = new Text();
    private Text map_value = new Text();
    int rNumber = 300;
    int cNumber = 500;
    String fileTarget;
    String i, j, k, ij, jk;
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

      
        String eachterm[] = value.toString().split("#");
        fileTarget = eachterm[0];
        if(fileTarget.equals("M")){
          i = eachterm[1];
          j = eachterm[2];
          ij = eachterm[3];
          for(int c = 1; c<=cNumber; c++){
              map_key.set(i + "#" + String.valueOf(c));
              map_value.set("M" + "#" + j + "#" + ij);
              context.write(map_key, map_value);
          } 
        }else if(fileTarget.equals("N")){
          j = eachterm[1];
          k = eachterm[2];
          jk = eachterm[3];
          for(int r = 1; r<=rNumber; r++){
              map_key.set(String.valueOf(r) + "#" +k);
              map_value.set("N" + "#" + j + "#" + jk);
              context.write(map_key, map_value);
          }
        }
    }
  } 
  public static class MartrixReducer extends Reducer<Text,Text,Text,Text> {
    private Text reduce_value = new Text();
    int jNumber = 150;
    int M_ij[] = new int[jNumber+1];
    int N_jk[] = new int[jNumber+1];
    int j, ij, jk;
    String fileTarget;
    int jsum = 0; 
    public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
      jsum = 0; 
      for (Text val : values) {
        String eachterm[] = val.toString().split("#");
        fileTarget = eachterm[0];
        j = Integer.parseInt(eachterm[1]);
        if(fileTarget.equals("M")){
      	  ij = Integer.parseInt(eachterm[2]);
      	  M_ij[j] = ij;
        }else if(fileTarget.equals("N")){
      	  jk = Integer.parseInt(eachterm[2]);

      	  N_jk[j] = jk;
        } 
      } 
      for(int d = 1; d<=jNumber; d++){
    	 jsum +=  M_ij[d] * N_jk[d];
      } 
      reduce_value.set(String.valueOf(jsum));
      context.write(key, reduce_value); 
    }
  }
  public static void main(String[] args) throws Exception {
      Configuration conf = new Configuration();
      String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
      if (otherArgs.length != 2) {
	  System.err.println("Usage: MartrixMultiplication <in> <out>");
	  System.exit(2);
      } 
      Job job = new Job(conf, "martrixmultiplication");
      job.setJarByClass(MartrixMultiplication.class);
      job.setMapperClass(MartrixMapper.class);
      job.setReducerClass(MartrixReducer.class); 
      job.setOutputKeyClass(Text.class);
      job.setOutputValueClass(Text.class); 
      FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
      FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 
      System.exit(job.waitForCompletion(true) ? 0 : 1); 
  } 
}

 

生成數據M.data放在本地一個叫做input2的文件夾裏面,M.data爲50*50矩陣,太大了,就不放在這裏了,可以私信我或加我QQ1320496612要。

使用指令(兩行爲同一句)

javac -classpath share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.10.1.jar:share/hadoop/common/hadoop-common

2.10.1.jar:share/hadoop/common/lib/commons-cli-1.2.jar -d local_matrix -Xlint:deprecation local_matrix/MartrixMultiplication.java

生成class,如圖:

18、指令jar -cvf local_matrix/MartrixMultiplication.jar -C local_matrix/ .   打包jar。

19、之後執行以下三條指令,上傳運行,並下載:

./hadoop fs -copyFromLocal ../input2 /in2

./hadoop jar ../local_matrix/MartrixMultiplication.jar MartrixMultiplication /in2 out2

./hadoop fs -get out2 output2

20、指令cat output2/*查看結果

三、遇到的問題及解決方法

1.採用Oracel VM VirtalBox虛擬機出現問題,換用VMware Workstation虛擬機。開始是11.0的VMware Workstation,安裝系統時總會卡在一個界面,之後查詢資料後,更換了16.0的版本,解決了這個問題。

2.安裝VM Tools出現“沒有足夠的空間以提取…”的情況。首先,右鍵使用歸檔管理器打開,之後,右鍵文件,選擇提取,最後,提取到桌面。然後解決了這個問題。

3.root賬號無法登錄SSH問題- Permission denied, please try again. 此時,系統默認禁止root用戶登錄ssh解決辦法:輸入su - 後,輸入 vi /etc/ssh/sshd_config 編輯sshd_config文件,找到:

# Authentication:
#LoginGraceTime 120
#PermitRootLogin without-password
#PermitRootLogin yes
#StrictModes yes



改爲:

# Authentication:
LoginGraceTime 120
#PermitRootLogin without-password
PermitRootLogin yes
StrictModes yes



保存退出。PermitRootLogin意思爲允許免密登錄。

4.無法正確啓動Hadoop,發現四個文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml縮進存在問題,前面的不是空格,爲非法字符,修改縮進後,成功運行Hadoop。

5.jps查看進程缺少Namenode節點,通過stop-all.sh、hadoop namenode -format、start-all.sh重新格式化Namenode節點完美解決。

6.jps查看進程缺少Datanode節點,原因爲多次的namenode格式化,使name和data的ID號變化,造成啓動失敗。解決辦法:清楚dfs下所有文件,cd /user/local/hadoop/tmp/dfs指令後,rm -r *。再之後cd /usr/local/hadoop指令後,hdfs namenode -format指令重新格式化namenode。重啓./sbin/start-dfs.sh後,jps發現Datanode出現。

7.出現問題Name node is in safe mode,Namenode處於安全模式,採用指令hadoop dfsadmin -safemode leave解決問題,出現Safe mode is OFF,成功解除安全模式。

8.運行mapreduce,出現卡在map 100% reduce 0%這個位置的情況,通過虛擬機->設置->增大系統的內存完美解決問題。

9.在執行生成class指令時,出現*.java使用或覆蓋了已過時的API錯誤,添加-Xlint:deprecation改爲javac -Xlint:deprecation *.java 重新編譯,解決問題。

10.服務器的in2文件夾和out2文件夾總是出錯,通過多次增刪文件夾解決了問題。

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章