參考
blog.csdn.net/xqj198404/article/details/28601149
一、Mahout0.9安裝
1、首先 從mirror.cc.columbia.edu/pub/software/apache/mahout/0.9/ 下載到 .tar.gz 的mahout源碼;
2、解壓到某個地方 在 mahout/bin 路徑下修改 mahou 文件,添加如下內容:
HADOOP_CONF_DIR="hadoop的配置目錄需要以/結尾"
HADOOP_HOME="hadoop的安裝目錄需要以/結尾"
MAHOUT_HEAPSIZE=2000 mahout可以調用的內存量,建議設的比較大
3、修改 hadoop etc路徑下的 mapred-site.xml 添加如下內容:
<pre name="code" class="plain"><property>
<name>mapred.child.java.opts</name>
<value>-Xmx1024m</value>
</property>
修改 hadoop etc路徑下的 hadoop-env.sh 添加如下內容:
export HADOOP_HEAPSIZE=2000
至此 Mahout0.9的安裝就全部完成了二、Mahout0,9驗證
1、從 http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 下載測試數據
2、將下載的到的測試數據文本存儲到 hdfs 上:
./hadoop fs -put synthetic_control.data /user/root/testdata
注意:這裏存放.data文件的路徑需要這麼寫之後的例子才能執行。3、到 mahout 的bin路徑下執行如下:
bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job
bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job
表示我只執行了第一個JOB,看上去是滿成功的,花費了 1.7 min,給出了6個 cluster
4、檢查 hdfs 裏面 mahout 的輸出情況卻看到一堆頭大的亂碼如下:
<img src="https://img-blog.csdn.net/20140929212756325" alt="" />
看 <a target=_blank href="tech.ddvip.com/2013-11/1384964006206279.html">tech.ddvip.com/2013-11/1384964006206279.html</a> 這裏說是需要反序列化:
<pre name="code" class="plain">mahout seqdumper -i xxx/xxx/xxx/part-r-00000 -o /data/patterns.txt
這是找不到output輸出路徑,改成了 hdfs:// 也找不到思密達...
以下是成功反序列化的結果: