oryx 推薦系統的使用

https://github.com/cloudera/oryx   在這裏的readme.md文件中能看到有哪些jar包。

很驚訝的是這些jar包竟然不能在search.maven.org中找到。

於是決定到git裏下載oryx源代碼。

通過一下代碼安裝  其實安裝oryx也要看相應的hadoop版本的,如果是hadoop2.3.0以前的版本的話,可以參照https://github.com/cloudera/oryx/wiki/Building-from-Source裏面的方法安裝,其實和安裝mahout有點類似。

mvn -DskipTests install

探索的最後結果是這個oryx其實不是一個library,這其實是一個寫好的產品,能夠直接發佈的推薦引擎。他支持collaborative filtering / recommendation, classification / regression, and clustering這幾種推薦。用戶能夠直接通過rest ful接口得到推薦結果。

oryx 90%的代碼是來自Myrrix,Myrrix其實是Mahout的一個改進。

Mahout是一個Library。


這個是如何使用oryx的使用說明,https://github.com/halida9cxm/workbench/wiki/oryx-quickstart-guide

例如:

以下是文件的存放位置

在/home/training/oryx_test下放:

example(文件夾), oryx.config(文件), oryx-computation-1.0.0.jar, oryx-serving-1.0.0.jar



然後執行

java -Dconfig.file=oryx.config -jar oryx-computation-1.0.0.jar

sudo java -Dconfig.file=oryx.config -jar oryx-serving-1.0.0.jar  //因爲80端口必須要有root權限才能使用


oryx.config的文件的設置:


model=${als-model}
model.instance-dir=/home/training/oryx-test/example
model.local-computation=true
model.local-data=true
model.features=25
model.lambda=0.065

目前,oryx只寫了聚類(kmeans),分類(rdf)和協同過濾(als)三個方面的算法,另外也不能進行分佈式計算,只能將這些jar包發佈到裝有hadoop的機子上,才能正常運行起來。並不能將oryx包和hadoop分開在不同的機子上面。雖然說代碼中貌似有涉及進行分佈式計算,但是config文件裏並沒有明確提出來怎麼區分這兩種狀態。所以仍然認爲只能進行單擊計算。



發佈了95 篇原創文章 · 獲贊 11 · 訪問量 25萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章