147 Mahout運行在Hadoop集羣

Hadoop 執行腳本

hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD

參數說明:

  • –input(path) : 存儲用戶偏好數據的目錄,該目錄下可以包含一個或多個存儲用戶偏好數據的文本文件;
  • –output(path) : 結算結果的輸出目錄
  • –numRecommendations (integer) : 爲每個用戶推薦的item數量,默認爲10
  • –usersFile (path) : 指定一個包含了一個或多個存儲userID的文件路徑,僅爲該路徑下所有文件包含的userID做推薦計算 (該選項可選)
  • –itemsFile (path) : 指定一個包含了一個或多個存儲itemID的文件路徑,僅爲該路徑下所有文件包含的itemID做推薦計算 (該選項可選)
  • –filterFile (path) : 指定一個路徑,該路徑下的文件包含了[userID,itemID] 值對,userID和itemID用逗號分隔。計算結果將不會爲user推薦 [userID,itemID] 值對中包含的item (該選項可選)
  • –booleanData (boolean) : 如果輸入數據不包含偏好數值,則將該參數設置爲true,默認爲false
  • –maxPrefsPerUser (integer) : 在最後計算推薦結果的階段,針對每一個user使用的偏好數據的最大數量,默認爲10
  • –minPrefsPerUser (integer) : 在相似度計算中,忽略所有偏好數據量少於該值的用戶,默認爲1
  • –maxSimilaritiesPerItem (integer) : 針對每個item的相似度最大值,默認爲100
  • –maxPrefsPerUserInItemSimilarity (integer) : 在item相似度計算階段,針對每個用戶考慮的偏好數據最大數量,默認爲1000
  • –similarityClassname (classname) : 向量相似度計算類
  • outputPathForSimilarityMatrix :SimilarityMatrix輸出目錄
  • –randomSeed : 隨 機種子 – sequencefileOutput :序列文件輸出路徑
  • –tempDir (path) : 存儲臨時文件的目錄,默認爲當前用戶的home目錄下的temp目錄
  • –threshold (double) : 忽略相似度低於該閥值的item對

執行結果

上面命令運行完成之後,會在當前用戶的hdfs主目錄生成temp目錄,該目錄可由 --tempDir (path) 參數設置
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章