Mahout安裝嘗試

原創

Dayin_mao

2020-02-20 14:29

參考 blog.csdn.net/xqj198404/article/details/28601149

一、Mahout0.9安裝

1、首先從mirror.cc.columbia.edu/pub/software/apache/mahout/0.9/ 下載到 .tar.gz 的mahout源碼；

2、解壓到某個地方在 mahout/bin 路徑下修改 mahou 文件，添加如下內容：

HADOOP_CONF_DIR="hadoop的配置目錄需要以/結尾"  
HADOOP_HOME="hadoop的安裝目錄需要以/結尾"  
MAHOUT_HEAPSIZE=2000 mahout可以調用的內存量，建議設的比較大 

3、修改 hadoop etc路徑下的 mapred-site.xml 添加如下內容：
<pre name="code" class="plain"><property>    
        <name>mapred.child.java.opts</name>  
        <value>-Xmx1024m</value>  
</property>

修改 hadoop etc路徑下的 hadoop-env.sh 添加如下內容：

export HADOOP_HEAPSIZE=2000

至此 Mahout0.9的安裝就全部完成了

二、Mahout0,9驗證

1、從 http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 下載測試數據

2、將下載的到的測試數據文本存儲到 hdfs 上：

./hadoop fs -put synthetic_control.data /user/root/testdata

注意：這裏存放.data文件的路徑需要這麼寫之後的例子才能執行。

3、到 mahout 的bin路徑下執行如下：

bin/mahout org.apache.mahout.clustering.syntheticcontrol.canopy.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job  
bin/mahout org.apache.mahout.clustering.syntheticcontrol.fuzzykmeans.Job 

表示我只執行了第一個JOB，看上去是滿成功的，花費了 1.7 min，給出了6個 cluster

4、檢查 hdfs 裏面 mahout 的輸出情況卻看到一堆頭大的亂碼如下：
<img src="https://img-blog.csdn.net/20140929212756325" alt="" />

看 <a target=_blank href="tech.ddvip.com/2013-11/1384964006206279.html">tech.ddvip.com/2013-11/1384964006206279.html</a> 這裏說是需要反序列化：
<pre name="code" class="plain">mahout seqdumper -i xxx/xxx/xxx/part-r-00000 -o /data/patterns.txt

這是找不到output輸出路徑，改成了 hdfs:// 也找不到思密達...

以下是成功反序列化的結果：

Dayin_mao

發佈了42 篇原創文章 · 獲贊 8 · 訪問量 7萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Mahout安裝嘗試

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

Hadoop-2.2.0 + hbase-0.98.4-hadoop2 RedHat x64 僞分佈式安裝小札（及配置文件）

python 執行 hadoop-2.2.0 mapreduce

Linux 查找文件查看.jar包

python第一彈爬蟲淘女郎圖片

2020年Q1小結

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結