mahout在hadoop下安裝與測試過程

1.下載mahout-0.5 網址:http://mirror.bjtu.edu.cn/apache/mahout/0.5/
2.將壓縮文件解壓到/home/hadoop/tools/
3.在/etc/profile和~/.bashrc中添加:
  export HADOOP_HOME=/home/hadoop/hadoop-1.0.1 export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.0.1/conf以及export MAHOUT_HOME=/home/hadoop/tools/mahout-0.5
source /etc/profile
source ~/.bashrc使之生效
4.安裝maven2:sudo apt-get instal maven2
5.在/mahout-0.5下執行命令:mvn  install
6.在/mahout-0.5/bin下執行:./mahout --help 查看可以執行的算法
測試kmeans算法
7.開啓hadoop
8.下載數據集synthetic_control.data(http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data)。將數據集synthetic_control.data放到MAHOUT_HOME目錄下面,(注意:這裏一定要放到此目錄下,否則會異常報錯)
9.創建測試目錄testdata,並把數據導入到這個tastdata目錄中(這裏的目錄的名字只能是testdata)$HADOOP_HOME/bin/hadoop fs -mkdir testdata
$HADOOP_HOME/bin/hadoop fs -put <PATH TO synthetic_control.data> testdata
10.使用kmeans算法
$HADOOP_HOME/bin/hadoop jar $MAHOUT_HOME/examples/target/mahout-examples-$MAHOUT_VERSION.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章