1、eclipse开发要求
在eclipse下新建java工程,导入开发mahout所需的jar包,如图所示
如果需要其它包导入即可。
2、新建一个类,用来调用mahout算法,自己编写,具体api看mahout官网,可以写 (推荐算法、聚类算法和分类算法三类机器学习算法)
本例中使用mahout源码中的一个k-means算法实例,直接将文件复制过来。
3、程序编写完毕后,将工程导出为test.jar包(可以自己命名),(注意导出jar包时不用加 依赖jar包)
4、在hadoop上安装mahout,将mahout下的jar包复制到每个hadoop节点的hadoop- yarn目录下。(hadoop执行时会将运行jar文件分发到其他节点的hadoop-yarn目录 下,如果不将mahout下jar文件复制过去,会造成找不到类错误)
5、将test.jar文件上传到hadoop上的mahout文件夹下
6、执行hadoop命令
cd mahout目录
hadoop jar ./test.jar com.wang.Job
运行结果和mahout自带的mahout-examples-0.9-cdh5.1.2-job.jar文件运行一样
hadoop jar ./mahout-examples-0.9-cdh5.1.2-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job