Mahout安裝嘗試


參考 blog.csdn.net/xqj198404/article/details/28601149


一、Mahout0.9安裝


1、首先 從mirror.cc.columbia.edu/pub/software/apache/mahout/0.9/  下載到 .tar.gz 的mahout源碼;

2、解壓到某個地方 在 mahout/bin 路徑下修改 mahou 文件,添加如下內容:

HADOOP_CONF_DIR="hadoop的配置目錄需要以/結尾"  
HADOOP_HOME="hadoop的安裝目錄需要以/結尾"  
MAHOUT_HEAPSIZE=2000 mahout可以調用的內存量,建議設的比較大 

3、修改 hadoop etc路徑下的 mapred-site.xml 添加如下內容:
<pre name="code" class="plain"><property>    
        <name>mapred.child.java.opts</name>  
        <value>-Xmx1024m</value>  
</property>  

修改 hadoop etc路徑下的 hadoop-env.sh 添加如下內容:
export HADOOP_HEAPSIZE=2000 
至此 Mahout0.9的安裝就全部完成了

二、Mahout0,9驗證

1、從 http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 下載測試數據

2、將下載的到的測試數據文本存儲到 hdfs 上:
./hadoop fs -put synthetic_control.data /user/root/testdata
注意:這裏存放.data文件的路徑需要這麼寫之後的例子才能執行。

3、到 mahout 的bin路徑下執行如下:
bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job 

表示我只執行了第一個JOB,看上去是滿成功的,花費了 1.7 min,給出了6個 cluster

4、檢查 hdfs 裏面 mahout 的輸出情況卻看到一堆頭大的亂碼如下:
<img src="https://img-blog.csdn.net/20140929212756325" alt="" />

看 <a target=_blank href="tech.ddvip.com/2013-11/1384964006206279.html">tech.ddvip.com/2013-11/1384964006206279.html</a> 這裏說是需要反序列化:
<pre name="code" class="plain">mahout seqdumper -i xxx/xxx/xxx/part-r-00000 -o /data/patterns.txt

這是找不到output輸出路徑,改成了 hdfs:// 也找不到思密達...

以下是成功反序列化的結果:





發佈了42 篇原創文章 · 獲贊 8 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章