Hadoop 執行腳本
hadoop jar mahout-examples-0.9-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /sanbox/movie/10M.txt --output /sanbox/movie/r -s SIMILARITY_LOGLIKELIHOOD
參數說明:
- –input(path) : 存儲用戶偏好數據的目錄,該目錄下可以包含一個或多個存儲用戶偏好數據的文本文件;
- –output(path) : 結算結果的輸出目錄
- –numRecommendations (integer) : 爲每個用戶推薦的item數量,默認爲10
- –usersFile (path) : 指定一個包含了一個或多個存儲userID的文件路徑,僅爲該路徑下所有文件包含的userID做推薦計算 (該選項可選)
- –itemsFile (path) : 指定一個包含了一個或多個存儲itemID的文件路徑,僅爲該路徑下所有文件包含的itemID做推薦計算 (該選項可選)
- –filterFile (path) : 指定一個路徑,該路徑下的文件包含了[userID,itemID] 值對,userID和itemID用逗號分隔。計算結果將不會爲user推薦 [userID,itemID] 值對中包含的item (該選項可選)
- –booleanData (boolean) : 如果輸入數據不包含偏好數值,則將該參數設置爲true,默認爲false
- –maxPrefsPerUser (integer) : 在最後計算推薦結果的階段,針對每一個user使用的偏好數據的最大數量,默認爲10
- –minPrefsPerUser (integer) : 在相似度計算中,忽略所有偏好數據量少於該值的用戶,默認爲1
- –maxSimilaritiesPerItem (integer) : 針對每個item的相似度最大值,默認爲100
- –maxPrefsPerUserInItemSimilarity (integer) : 在item相似度計算階段,針對每個用戶考慮的偏好數據最大數量,默認爲1000
- –similarityClassname (classname) : 向量相似度計算類
- outputPathForSimilarityMatrix :SimilarityMatrix輸出目錄
- –randomSeed : 隨 機種子 – sequencefileOutput :序列文件輸出路徑
- –tempDir (path) : 存儲臨時文件的目錄,默認爲當前用戶的home目錄下的temp目錄
- –threshold (double) : 忽略相似度低於該閥值的item對
執行結果
上面命令運行完成之後,會在當前用戶的hdfs主目錄生成temp目錄,該目錄可由 --tempDir (path) 參數設置