1、eclipse開發要求
在eclipse下新建java工程,導入開發mahout所需的jar包,如圖所示
如果需要其它包導入即可。
2、新建一個類,用來調用mahout算法,自己編寫,具體api看mahout官網,可以寫 (推薦算法、聚類算法和分類算法三類機器學習算法)
本例中使用mahout源碼中的一個k-means算法實例,直接將文件複製過來。
3、程序編寫完畢後,將工程導出爲test.jar包(可以自己命名),(注意導出jar包時不用加 依賴jar包)
4、在hadoop上安裝mahout,將mahout下的jar包複製到每個hadoop節點的hadoop- yarn目錄下。(hadoop執行時會將運行jar文件分發到其他節點的hadoop-yarn目錄 下,如果不將mahout下jar文件複製過去,會造成找不到類錯誤)
5、將test.jar文件上傳到hadoop上的mahout文件夾下
6、執行hadoop命令
cd mahout目錄
hadoop jar ./test.jar com.wang.Job
運行結果和mahout自帶的mahout-examples-0.9-cdh5.1.2-job.jar文件運行一樣
hadoop jar ./mahout-examples-0.9-cdh5.1.2-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job