redhat+hadoop+mahout環境搭建

原創

向辉tc

2020-07-03 08:41

淘了一臺二手Dell C1100玩：

CPU: L5639*2

MEM: 4GB*18

HDD: SATA 1G

簡單記錄一下部署過程：

1. 爲了給OpenStack打好基礎，選擇安裝rhel 6.4

下載完[紅帽企業Linux.6.4.服務器版].rhel-server-6.4-x86_64-dvd.iso，用ultralISO刻錄到U盤上安裝，由於是空機器，一路默認就好

2. 啓動系統，發現不能自動配置DNS和IP，手動配上（這裏有個坑，下面會提到）

3. 由於沒有licence，只能配置源centos的源，不過網上很多源都失效了，最後還是靠胖大人搞定

   [base]
     name=CentOS-5 - Base
   #baseurl=http://ftp.redhat.com/redhat/linux/enterprise/6Server/en/os/SRPMS
     baseurl=http://ftp.sjtu.edu.cn/centos/6.4/os/x86_64/
     gpgcheck=0
     enabled=1

4. 到hadoop官方站點上下載合適的版本，這裏選擇最新穩定版本1.2.1：

http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/（給的默認鏡像太慢，還是選CNNIC比較快）

rpm或者tar.gz都很方便，建議新手下tar.gz，解壓後直接按照官方指南就能配置好使用：

http://hadoop.apache.org/docs/r1.2.1/single_node_setup.html（單機、僞分佈式）

http://hadoop.apache.org/docs/r1.2.1/cluster_setup.html (集羣)

三種方式的配置也可以參考hadoop權威指南的附錄A，有比較詳細的介紹

5. 以前用虛擬機跑過分佈式環境，以爲單機和僞分佈式也很簡單，結果job卡在reduce上遲遲完成不了，察看job的日誌提示reduce.Fetcher找不到map out的host：web30.bbn.com.cn，上網一查這個北京聯通的一個地址，當本地DNS找不到某個host的時候就會向上去請求更高層DNS，最後到聯通也不認識了就給這麼個host，真是坑爹==！由於DNS是手動配的，結果就載到這坑裏了。至於未知的host是哪來，還不得而知，據說和360等掃描局域網有關...解決方案有兩個：

打開防火牆：service iptables start

在/etc/hosts裏給web30.bbn.com.cn配上本機ip，再跑job順利完成。

6. mahout也裝最新版本：http://mirrors.cnnic.cn/apache/mahout/0.8/

下載tar.gz，本地解壓

測試比較簡單，完全參考官方指南即可：https://cwiki.apache.org/confluence/display/MAHOUT/Quickstart

需要注意的是如果沒配好HADOOP_HOME，運行examples會自動選擇單機模式，此時會把數據也下載到本地，如果再要使用hadoop模式，需要把數據手動從本地上傳導HDFS纔可跑起example job

這裏值得注意的是，單機模式和分佈式模式下跑出來的結果並不一樣，以分類爲例：

單機結果：

Statistics
-------------------------------------------------------
Kappa 0.8728
Accuracy 90.1657%
Reliability 85.6396%
Reliability (standard deviation) 0.2159

分佈式結果：

Statistics
-------------------------------------------------------
Kappa 0.8686
Accuracy 89.6502%
Reliability 85.1966%
Reliability (standard deviation) 0.2283

這可能是分佈式算法爲了能實現分佈式存儲和計算而做了一定的效果取捨，具體原因有待進一步研究

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

redhat+hadoop+mahout環境搭建

一個簡單的MD5加鹽

C# 代碼學習

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

C#/.NET/.NET Core優秀項目和框架2024年4月簡報

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

redhat+hadoop+mahout環境搭建

Python 中的線性優化，第 2 部分: 在雲中構建一個可擴展的基礎架構

under_the_hood_openvswitch

OpenStack unit tests 環境調試

OpenStack yum源收集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結