147 Mahout運行在Hadoop集羣

原創

2019-08-14 03:29

Hadoop 執行腳本

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD

參數說明：

–input(path) : 存儲用戶偏好數據的目錄，該目錄下可以包含一個或多個存儲用戶偏好數據的文本文件；
–output(path) : 結算結果的輸出目錄
–numRecommendations (integer) : 爲每個用戶推薦的item數量，默認爲10
–usersFile (path) : 指定一個包含了一個或多個存儲userID的文件路徑，僅爲該路徑下所有文件包含的userID做推薦計算 (該選項可選)
–itemsFile (path) : 指定一個包含了一個或多個存儲itemID的文件路徑，僅爲該路徑下所有文件包含的itemID做推薦計算 (該選項可選)
–filterFile (path) : 指定一個路徑，該路徑下的文件包含了[userID,itemID] 值對，userID和itemID用逗號分隔。計算結果將不會爲user推薦 [userID,itemID] 值對中包含的item (該選項可選)
–booleanData (boolean) : 如果輸入數據不包含偏好數值，則將該參數設置爲true，默認爲false
–maxPrefsPerUser (integer) : 在最後計算推薦結果的階段，針對每一個user使用的偏好數據的最大數量，默認爲10
–minPrefsPerUser (integer) : 在相似度計算中，忽略所有偏好數據量少於該值的用戶，默認爲1
–maxSimilaritiesPerItem (integer) : 針對每個item的相似度最大值，默認爲100
–maxPrefsPerUserInItemSimilarity (integer) : 在item相似度計算階段，針對每個用戶考慮的偏好數據最大數量，默認爲1000
–similarityClassname (classname) : 向量相似度計算類
outputPathForSimilarityMatrix ：SimilarityMatrix輸出目錄
–randomSeed ： 隨機種子 – sequencefileOutput ：序列文件輸出路徑
–tempDir (path) : 存儲臨時文件的目錄，默認爲當前用戶的home目錄下的temp目錄
–threshold (double) : 忽略相似度低於該閥值的item對

執行結果

上面命令運行完成之後，會在當前用戶的hdfs主目錄生成temp目錄，該目錄可由 --tempDir (path) 參數設置

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

147 Mahout運行在Hadoop集羣

Hadoop 執行腳本

執行結果

185 RDD API - Action

195 Spark Streaming整合Kafka完成網站點擊流實時統計

191 DStream概述

197 Spark DataFrames概述

144 Mahout介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結